たった3秒で声をコピー!? Mistral新モデルの音声合成がヤバすぎる

　わずか3秒の声で、あなたをコピー。

　AIの音声合成といえば、ElevenLabsやDeepgramのようなAPIサービスが目立ってきましたが、公開TTSモデルそのものはすでに存在していました。そんな市場に、Mistral AIがオープンウェイトモデルの新顔を投入してきた、とTechCrunchが伝えています。

　フランスのAIスタートアップMistral AIは3月23日、テキストから音声を生成するオープンウェイトモデル「Voxtral TTS」を公開しました。Mistralはこれを自社初のTTSモデルと説明しており、Hugging Faceのモデルカードでは「frontier, open-weights text-to-speech model」と表現しています。

　アーキテクチャは3つのコンポーネントで構成。3.4BパラメータのTransformerデコーダを骨格に、390MパラメータのFlow-Matching音響Transformer、そして300Mパラメータのニューラルオーディオコーデックを組み合わせた、合計約4.1Bパラメータです。

　性能面では、Mistralの公式ブログと研究論文、モデルカードによると、500文字のテキストと10秒の参照音声という条件でモデル遅延は70ミリ秒、RTFは0.103、つまり実時間の約9.7倍だそうです。公式ドキュメントでは低モデル遅延を約90ミリ秒としつつ、APIのTTFAはPCMで約0.8秒、MP3で約3秒と案内。対応言語は英語、フランス語、ドイツ語、スペイン語、オランダ語、ポルトガル語、イタリア語、ヒンディー語、アラビア語の9言語です。

　注目すべきは音声クローン機能でしょう。公式ブログと研究論文では3秒、公式ドキュメントでは2〜3秒程度の参照音声からゼロショット音声クローニングが可能だといいます。一方で、アーキテクチャ説明では5〜25秒の音声プロンプトを前提にしているのだとか。微妙なアクセントや抑揚、さらには言いよどみまで反映できるとMistralは説明しており、言語をまたいでも声の特徴を保つクロスリンガル音声適応も示しています。