
Googleは2025年11月19日、最新の大規模AIモデル「Gemini 3」と、その推論性能をさらに引き上げる強化モード「Gemini 3 Deep Think」を発表しました。
Gemini 3は、テキストだけでなく画像や動画、音声、コードなど複数のモダリティを横断して理解し、推論できることを前提に設計されたモデルです。前世代のGemini 2がエージェント機能の基盤を築いたのに対し、Gemini 3では推論と思考の性能をさらに押し上げ、複雑なタスクやアイデアの扱いに強くなりました。
AIモデルベンチマーク「LMArena」では、Gemini 3 ProがEloスコア1501でリーダーボード首位を獲得しており、Humanity’s Last Examで37.5%、GPQA Diamondで91.9%と、難関ベンチマークで博士課程レベルの推論能力を示しています。数学系ベンチマークのMathArena Apexでも23.4%と現時点の最高スコアを記録し、数理分野でもフロンティアモデルの新標準を打ち立てたとしています。
またマルチモーダル系ベンチマークでは、MMMU-Proで81%、Video-MMMUで87.6%というスコアを達成。実世界に近い複雑なタスクを扱うMulti-Modal QAでも高い性能を示しており、SimpleQA Verifiedでは72.1%と、事実性の面でも大きく改善しています。Googleは、科学や数学など幅広い分野の難問に対して、高い信頼性で解を出せるモデルになったとアピールしています。

応答スタイルもチューニング。決まり文句やお世辞ではなく、簡潔で率直な「本当に役立つ洞察」を返すことを目指したと説明。複雑な科学概念をコードと可視化で翻訳したり、創造的なブレインストーミングの相手になったりと、「思考パートナー」的な使い方を意識しているようです。
今回の発表の中でも、とくに注目したいのが強化推論モード「Gemini 3 Deep Think」です。これはGemini 3の推論能力とマルチモーダル理解力をさらに引き上げ、より難度の高い問題や新規性の高い課題に挑むための専用モードという位置づけ。
Googleのテストによると、Gemini 3 Deep Thinkは、すでに高性能なGemini 3 Proをいくつかのベンチマークで上回っているとか。代表的な指標として、Humanity’s Last Examではツール不使用で41.0%を記録し、Gemini 3 Proの37.5%からさらにスコアを伸ばしました。GPQA Diamondでも93.8%と、こちらもGemini 3 Proの成績を超えています。
さらに、汎用的な推論と「本当に新しいタイプの問題」をどこまで解けるかを測るARC-AGI(コード実行あり)では、前例のない45.1%というスコアを達成。従来モデルが苦手とする、訓練データに似ていないタイプの問題に対しても、自力で規則性を見つけて解く力が向上していることを示します。
Gemini 3は一般ユーザー向けには、Geminiアプリと、Google AI Pro/Ultraサブスクユーザーを対象としたGoogle検索のAIモードに、Gemini 3が順次展開。Google検索のAIモードにも登場予定。

開発者向けには、Google AI StudioのGemini API、Gemini CLI、新しいエージェント開発プラットフォーム「Google Antigravity」でGemini 3が利用可能です。さらに、CursorやGitHub、JetBrains、Manus、Replitといった外部開発環境でもGemini 3が使えるようになります。エンタープライズ向けには、Vertex AIおよびGemini Enterpriseで提供。
Gemini 3 Deep Thinkモードは、まずセーフティーテスターへの限定提供からスタートし、そのフィードバックを踏まえて一般公開に備えるという慎重なロードマップに。Googleは今後数週間以内に、Google AI Ultraサブスクリプションのユーザー向けにDeep Thinkモードの提供を開始する予定であるとしています。
エージェント能力も高く、長期計画能力を測るVending-Bench 2では、シミュレーションされた自動販売機ビジネスを1年間運営するタスクでリーダーボードトップを獲得し、ツール利用と意思決定の一貫性を維持しながら高い収益を獲得。この長期計画能力とツール利用の組み合わせにより、Gmail受信トレイの整理や旅行計画といった複数ステップのワークフローを、エージェントが最初から最後までナビゲートし、ユーザーの代わりに実行するイメージも提示します。Google AI Ultraのサブスクユーザーは、Geminiアプリの「Gemini Agent」で、こうしたエージェント機能の一部をすでに試すことができるとしています。


















