Google Gemini 3.1 Pro/Deep Think、日本語の数学・コーディング能力が大幅進化——JMO・ICPCで見えた実力
#Google Akira 公開: 更新: 9分で読める

Google Gemini 3.1 Pro/Deep Think、日本語の数学・コーディング能力が大幅進化——JMO・ICPCで見えた実力

解説レベル

目次

Googleが2026年4月7日、日本語における Gemini 3.1 ProGemini 3.1 Pro Deep Think の数学・コーディング能力をまとめて公開した。今回おもしろいのは、「Geminiが賢くなった」とふわっと言っているだけではないことだ。Googleは、日本の受験者や競技プログラマーにとって文脈がはっきりしている 日本数学オリンピック(JMO)ICPC横浜大会の国内予選 を引き合いに出し、しかも日本語で評価結果を説明している。

自分はここをかなり重く見ている。理由はシンプルで、日本の開発現場や教育現場では、英語ベンチマークで強いモデルよりも、日本語の問題文をそのまま読み、日本語の仕様や前提を崩さずに扱えるモデル のほうが実際には価値が高いからだ。翻訳してから使うAIと、最初から日本語で考えられるAIは、似ているようでかなり違う。

何が発表されたのか

Google Japanの公式ブログによると、今回の柱は大きく3つある。

1つ目は、Gemini 3.1 Pro Deep ThinkがJMO本選で100%の最高得点を記録したという点だ。Googleは同時に、2025年のJMO本選における人間の最高得点が80%だったことも示している。つまり「優秀だった」ではなく、少なくともGoogleが採用した評価条件では、人間のトップスコアを上回る水準に到達したと打ち出したわけだ。

2つ目は、Gemini 3.1 Proが同じJMO本選で70.0% を取り、前世代のGemini 3 Proの 47.5% から大きく伸びたことだ。Deep Thinkだけが飛び抜けているのではなく、Googleが広く展開する標準側の上位モデル自体も、推論の土台がかなり強化されたと読める。

3つ目は、Deep ThinkがICPC横浜大会の国内予選で97.8%を達成したという点である。ICPCは実務そのものではないが、アルゴリズム理解、制約条件の読み取り、コードの正確性、そして時間制約の中での解法選択が問われる。日本の情報系学生や競技プログラマーにとっては、かなり直感的にレベル感が分かる題材だ。

加えてGoogleは、先週更新したDeep Thinkを Google AI Ultraユーザー向けにGeminiアプリで順次提供 しつつ、Gemini 3.1 ProはGemini API、Vertex AI、Gemini CLI、Android Studio、Geminiアプリ、NotebookLMなどへ広げていると説明している。つまり今回の話は研究デモではなく、開発者・企業・一般ユーザーの各導線へすでに降ろし始めているモデル更新だ。

この数字はどれくらい重いのか

JMOの公式結果を見ると、2025年本選の受験者は 205名、5問合計40点満点で、全体平均は 7.49点 だった。満点者はおらず、最高得点は 32点、つまり80%である。ここでGoogleが「Deep Thinkは100%」と書いている意味は軽くない。単に平均を超えたとか、そこそこ上位だったという話ではなく、日本の最難関級数学問題で満点相当の結果を出したというメッセージになる。

もちろん、ここで冷静さは必要だ。Googleの評価条件と本番試験の条件は同一ではない。試行回数、制限時間、解答形式、採点方法、そして人間が感じる心理的制約も違う。だから「Geminiが日本の高校生より数学が得意になった」と単純化するのは雑すぎる。それでも、日本語の高度な数学問題を読み、筋道立てて正解へ届く水準が見えたこと自体はかなり大きい。

ICPC側も同様だ。ICPC 2025 Yokohamaの国内予選結果によると、355チーム が参加し、上位チームは9問を解いている。Googleはその国内予選に対してDeep Thinkが97.8%を記録したと説明する。ここでも評価環境の差はあるので、人間チームとの単純比較は危ない。ただ、少なくともGoogleが「日本の競技プログラミング文脈でほぼ天井に近い」と見せたかったことは明確だ。

なぜ「日本語評価」が重要なのか

自分が今回いちばん重要だと思うのは、実はスコアそのものより 日本語の問題設定を正面から扱ったこと だ。

英語のベンチマークで強いモデルは、もう珍しくない。OpenAIでもAnthropicでもGoogleでも、英語圏の難問で高スコアを出すのは当たり前になってきた。でも日本の開発現場では、チケット、仕様書、稟議、障害報告、顧客要件、法務コメント、教育資料のかなりの部分が日本語で流れる。しかも数学やコーディングでも、日本語の問題文には独特の省略、含み、条件の置き方がある。

ここで性能が落ちるなら、モデルの使い勝手は一気に下がる。逆にここで性能が立つなら、日本の現場ではかなり導入しやすくなる。たとえば、アルゴリズム問題だけでなく、テストケース設計、バグ再現条件の読解、実装方針の比較、レビューコメントの要約など、日本語で考えながらコードへ落とす仕事 に効きやすくなるからだ。

今回の発表は、「Geminiは日本語もできます」という広告ではない。むしろ、日本語の高度推論でGoogleがようやく定量的な武器を持ったという見方のほうがしっくりくる。

日本の開発者と企業にどう効くか

まず開発者にとっては、日本語の仕様を読ませた上で、考えさせる系の仕事を任せやすくなる 可能性が高い。最近のAIコーディングでは、補完よりも「複数ファイルの変更方針を決める」「曖昧な要件を整理する」「テスト観点を列挙する」といった、少し長く考えるタスクの価値が上がっている。そういう場面では、日本語の前提を崩さないことがかなり重要だ。

2つ目に、教育市場への波及もある。JMOやICPCが題材として出てきた以上、学習塾、EdTech、大学の情報教育、競技プログラミング界隈は確実に反応する。特に「解答を出す」よりも、「なぜその考え方になるのか」「どこで場合分けが必要か」「別解はあるか」を日本語で説明できるなら、学習支援ツールとしての価値は大きい。

3つ目に、企業導入の導線がきれいだ。Googleは最近、Gemini APIにFlexとPriorityの2つのservice tierを追加して、推論コストと信頼性の流し分けをAPI設計へ持ち込んだ。さらにGemini API Docs MCPとDeveloper Skillsで、コーディングエージェントに最新ドキュメントを渡す仕組みも整えている。そこへ今回、コアの推論能力そのものが日本語で強い という材料が足された。

要するにGoogleは、日本市場に対して

  • モデル性能
  • API運用
  • 開発者向け文脈供給
  • コンシューマー/企業の配布面

を一気につなぎ始めている。単発ニュースとしてではなく、この連続性で見るとかなり強い。

それでも過信は禁物

ただし、ここで「Geminiに全部任せればいい」と飛ぶのは危ない。

JMOやICPCで強いことと、実務で強いことは一致しない。現実の開発は、古いコードベース、曖昧な仕様、利害調整、セキュリティ制約、依存関係、監査ログ、レビュー文化のような、競技問題には出てこない条件だらけだからだ。アルゴリズムが強くても、既存サービスの安全な改修が得意とは限らない。

さらに、Deep Thinkと3.1 Proは同じではない。Deep Thinkはより高い推論能力を前面に出したモードとして扱われている一方、広く使われるのは3.1 Proのほうだ。実務で多くの人が触るのは、まず標準側の3.1 ProやそのAPIになるはずで、日本語での強さがどこまで安定しているかは、これから実運用で見極める必要がある

Googleは2月の3.1 Pro発表で、ARC-AGI-2で 77.1% の検証済みスコアを示し、「単純な回答では足りない複雑タスク向け」と位置づけていた。今回の日本語評価は、そのメッセージに現地文脈の証拠を付けた形だと理解するのが自然だろう。だからこそ重要なのは、ベンチマーク勝利そのものより、日本語の実務ワークフローで再現できるか である。

まとめ

Googleの今回の発表は、単なる「Geminiすごい」話ではない。自分はむしろ、日本語の高度推論でGoogleが初めてかなり強い公式証拠を出してきたニュースだと見ている。

JMO本選でDeep Thinkが100%、Gemini 3.1 Proが70.0%、前世代が47.5%。ICPC横浜国内予選でDeep Thinkが97.8%。この数字だけでも十分インパクトはある。でも本当に重要なのは、その強さが 日本語の数学・コーディング文脈 で示されたことだ。

もしこの性能が実務でも安定して出るなら、日本の開発チーム、教育現場、そしてGoogle CloudやGemini APIを採用する企業にとって、Geminiは「英語圏で強いモデル」ではなく、日本語で本気で使える推論基盤 として見られ始めるはずだ。

出典