
音声AIに「思考」が来た!
声で話しかけたAIが、その場で考えながら答えてくれる時代が、どうやら本格的に始まりそうです。OpenAIは2026年5月7日、新しい音声モデル「GPT-Realtime-2」を含む3種類のリアルタイム音声モデルを発表しました。
中核となるGPT-Realtime-2は、同社いわく「GPT-5級の推論を備えた初の音声モデル」。これまでの音声AIは、会話のテンポを保つために推論を浅くしがちでしたが、新モデルは複雑な質問にも考えながら、必要に応じて「少し確認しますね」のような短い前置きで会話をつなぐそうです。
扱える文脈の長さも、前世代の3万2000トークンから一気に12万8000トークンへ。推論の深さはminimal、low、medium、high、xhighの5段階で切り替えでき、開発者がアプリ用途ごとに「速さ」と「賢さ」のバランスを選べる仕組みです。並列ツール呼び出し(Parallel Tool Calls、複数のツールを同時に呼び出す機能)にも対応し、連携先が用意されていれば、声で話しかけている間にカレンダーを引いて天気も調べる、みたいな多重作業がこなせるようになりました。
平たく言えば、これまでの音声AIが「とにかく早く返事するバイト君」だったとすれば、新モデルは「ちゃんと頭を使って答える社員」に近い感じ。返答の速さと考える深さは本来トレードオフですが、OpenAIはそこを開発者側で調整可能にした、というわけです。
「Big Bench Audio」(音声入力対応モデルの推論能力を測るベンチ)の正答率は、GPT-Realtime-2のhigh設定で96.6%。前世代のGPT-Realtime-1.5の81.4%から大きく伸びました。「Audio MultiChallenge」も、前世代の34.7%に対して、GPT-Realtime-2のxhigh設定で48.5%に。価格は音声入力が100万トークンあたり32ドル、音声出力が64ドル。音声のキャッシュ済み入力は0.40ドルです。
同時発表の「GPT-Realtime-Translate」は70以上の入力言語の音声を13の出力言語へリアルタイム翻訳。料金は1分あたり0.034ドルです。「GPT-Realtime-Whisper」は話しているそばからテキスト化するストリーミング書き起こしで、1分あたり0.017ドル。会議の同時通訳や議事録づくりまで、声まわりのAIが一気にAPI化された格好です。スマホアプリやスマートグラス、コールセンター、車載向けの開発が一段加速する可能性はありそうです。
























