弊誌はアフィリエイト広告を利用しています。

AIとの会話から「沈黙」が消える。Googleの新リアルタイム音声モデル「Gemini 3.1 Flash Live」発表

 AIとの会話から沈黙が消える。

 AIアシスタントに話しかけて、返事が来るまでの「間」。あの微妙な沈黙が、過去のものになるかもしれません。Googleは2026年3月26日、リアルタイム音声対話に特化した新モデル「Gemini 3.1 Flash Live」を発表しました。

 Gemini 3.1 Flash Liveは、Googleが「これまでで最高品質の音声・音声対話モデル」と位置づける存在だそうです。

 従来の2.5 Flash Native Audioと比べて遅延を改善し、Gemini Liveでは会話の流れを従来より2倍長く追えるようになったといいます。長めのブレストでも、話の筋を見失いにくくなった、というわけです。

 音声理解の精度も底上げされています。ピッチや話すテンポといった音響的なニュアンスをより正確に捉えられるようになったほか、交通騒音やテレビ音声のような環境ノイズをより的確に切り分け、背景騒音のフィルタリングも強化されたのだとか。

 開発者向けの改良も目立ちます。外部ツールを呼び出してライブ会話中に情報を返す能力が強化され、複雑なシステム命令への追従性も向上。予期しない会話の展開でも、運用上のガードレールを保ちやすくなったとGoogleは説明しています。対応言語は90超で、音声・画像・動画・テキストをまたぐリアルタイム対話にも対応します。

 すでに開発者向けにGemini Live API経由でGoogle AI Studioへのプレビュー提供が始まっています。一般向けにはGemini LiveとSearch Liveで利用でき、Search LiveはAI Modeが使えるすべての言語・地域、つまり200超の国と地域へ拡大しました。なおSearch Liveは音声だけでなくカメラも使う機能で、Android/iOSのGoogleアプリやGoogle Lensから使えるそうです。

 なお安全面では、Gemini 3.1 Flash Liveが生成した音声にはSynthIDの電子透かしが埋め込まれます。人の耳では分からない形で音声に織り込まれ、Google AI製コンテンツの検出に役立てる仕組みなのだとか。

 音声AIの競争で、Googleが今回前面に出したのは「速さ」と「自然さ」、そして騒音下でも会話をつなげる粘り強さ。ユーザーにとっては、数字以上に話し心地が大事なので、実際に使ってみるのが大事ですね。

すまほん!!を購読しませんか?

Twitterでも最新更新を配信・通知しています

フォローする 再度表示しない