
AIが自分でPCを操作する時代。
OpenAIは2026年3月5日、最新の大規模言語モデル「GPT-5.4」を発表しました。APIとCodexで利用でき、ChatGPTでは「GPT-5.4 Thinking」として導入。最高性能版「GPT-5.4 Pro」もChatGPTとAPIで使えるようになります。
OpenAIの汎用モデルとしては初めて、ネイティブの「コンピュータユース」に対応しました。AIがユーザーに代わってPCを直接操作し、アプリをまたいだ複雑なワークフローをこなせるようになったといいます。具体的には、Playwrightのようなライブラリを使ってコードでPCを操作できるほか、スクリーンショットを見てマウスやキーボード操作を行う仕組みにも対応しています。デスクトップ操作能力を測るOSWorld-Verifiedでは成功率75.0%を記録し、GPT-5.2の47.3%を大幅に上回りました。人間のスコア72.4%をも超えたそうです。
「コンピュータユース」とは、AIが人間のようにマウスを動かしたりキーボードを叩いたりして、実際のPC画面上で作業をこなす能力のこと。従来のAIは「テキストで回答する」のが基本でしたが、コンピュータユースに対応すると、ファイルを開いてデータを入力し、別のアプリに貼り付ける、といった一連の操作を自律的にやってくれます。要するに、AIが「もう一人のPC作業者」になるイメージです。
APIとCodexではコンテキストウィンドウが最大100万トークンに対応します。OpenAIによると、長大なドキュメントや複雑なタスクでも、計画・実行・検証を長い文脈の中で進めやすくなるとのことです。MCP Atlasでは同じ精度を保ちながらトークン使用量を47%削減したと案内しています。
OpenAIによると、ユーザーが事実誤認を指摘した匿名化プロンプト群において、個々の主張が誤りである確率はGPT-5.2比で33%下がり、応答全体にエラーを含む確率も18%下がったそうです。知識労働タスクを測るGDPvalでは83.0%を記録し、MercorのAPEX-Agentsベンチマークでも首位を獲得したといいます。
OpenAIはスプレッドシートやプレゼンテーション、文書作成のような業務タスクにも力を入れたと説明しています。同日にはExcel向けのChatGPTアドインと、ChatGPT内で利用できる金融データ統合も発表しました。
提供形態はプランごとに少し異なります。ChatGPTではGPT-5.4 ThinkingがPlus、Team、Proユーザー向けに提供を開始しており、EnterpriseとEduでは管理者設定による早期アクセス方式です。GPT-5.4 ProについてはOpenAI公式ブログがProとEnterprise向け、Help CenterがPro、Business、Enterprise、Edu向けと案内しています。通常版のGPT-5.4はAPIとCodexで利用できます。
API料金は、GPT-5.4が入力100万トークンあたり2.5ドル、キャッシュ入力0.25ドル、出力15ドルです。GPT-5.4 Proは入力30ドル、出力180ドルに設定されています。1.05Mコンテキスト窓を使うモデルで272Kトークンを超える入力を含む場合、セッション全体に対して入力は2倍、出力は1.5倍の料金が適用されるそうです。
単なるチャット応答にとどまらず、推論し、コードを書き、必要に応じてコンピュータも操作する。GPT-5.4は、OpenAIが進める実務向けエージェント路線をさらに前へ進める更新だといえそうです。




















