Geminiに開成高校の数学入試問題とかせてみた

Penguin Suit
@PenSu

はじめに
前に、開成高校の入試問題をChat GPT o1-previewに解かせてみましたが、
残念ながら受験者平均に届かなかったものの、想像以上に解けていました。
Chat GPTに解かせた動画は↓↓↓見てください!
今回は動画の企画のスピンオフとして、同じ問題を最新のGeminiに解かせてみたので、結果を見ていこうと思います!
準備
今回使うのは、Gemini 2.0 Flash Thinking Experimentalです。Gemini 1.5 proやGemini 2.0 pro Experimentalでも試しましたが、2.0 Flash Thinking Experimentalの正答率がよさそうでしたのでこちらを紹介します。
AIを動かす環境は、Google AI Studioを使用しています。Google AI Studioでは、入試問題のPDFをアップロードすれば勝手に問題文を読み込んでくれるので、そのまま解く指示だけ与えればよく、使い勝手が非常によかったです。
また、下記にGeminiの回答を載せておりますが、Geminiの出力には推論過程が細かく記載してあり、例えば間違った考え方をして再考に至った経緯も出力されます。この記事にすべて載せるには冗長でしたので、回答をまとめるよう指示しております。
回答
大問1[A]のGeminiの回答は↓↓↓です

こちらは問題なしの全問正解でした。
[B]の回答は↓↓↓です

(1)の(ア)と(ウ)は正解ですが、他は間違ってますね。
大問2の回答は↓↓↓です

残念ながら正解は(3)(i)だけです。そもそも問題が特殊なルールを理解する必要があるので、ちょっとトリッキーだったかもしれません。
大問3は↓↓↓です

大問3は惜しくも(4)だけ間違えでした。(4)も正解である√22/2が途中で出ているのに、なぜか2√3との大小関係を見ていますね。。
結果

今回は、Geminiに問題を解かせてみましたが、結果は100点満点中51点となりました。o1-previewとは問題の入力の仕方が違うので、Apple to Appleの比較ではありませんが、o1-previewに届かずの結果になりました。
ただ、面白いことに問題によって向き不向きがあるようで、o1-previewは特有のルールが課される問2のような問題が得意なようで、一方で問1[A]のような立式して方程式を解く問題はGeminiに軍配があがりました。
終わりに
以上、今回の検証は終わりです。
点数自体は伸び悩んだ印象を受けるかもしれませんが、筆者としてはAIがトップレベルの数学の問題を理解し理論立てて解いていること自体に驚いております(そもそも論ではありますが)
次は、共通テスト解かせてみますかね(大学入試は、合っているかどうか筆者が判定できない可能性あり避けています笑)。。
いずれにせよ、Chat CPT、Geminiともにバージョンアップされると思いますので、また試してみようと思います!