Whisperの6分の1サイズで精度を上回る？オンデバイス音声認識「Moonshine Voice」登場

　パラメータ数6分の1でWhisper超え？

　Useful Sensors（Moonshine AI）は2026年2月13日、オンデバイスで動作する音声認識（ASR）ツールキット「Moonshine Voice」を公開しました。英語の評価では、Hugging FaceのOpenASR LeaderboardでWhisper Large v3より低いWERを記録しつつ、最大モデルは2億4500万パラメータと約6分の1の規模に収まるそうです。日本語を含む8言語に対応し、コードと英語モデルはMITライセンスで公開しているとのことです。Pete Warden氏のブログなどが伝えています。

　Moonshine AI（Useful Sensors）を率いるのは、CEO Pete Warden氏とCTO Manjunath Kudlur氏です。両氏はGoogleでTensorFlowに関わった経歴を持つとされ、AI基盤の開発に携わってきたのだとか。Moonshine Voiceは、マイク入力のキャプチャ、音声区間検出（VAD）、音声テキスト変換、話者識別（ダイアライゼーション）、コマンド／意図認識までを1つのライブラリにまとめています。アカウント登録やAPIキーなしですぐ使い始められる点も売りだそうです。

　ユーザーが話している最中から計算を進めるストリーミング方式を採用しており、途中経過のテキストを継続的に更新します。重複計算を減らすキャッシュ機構に加え、音声の長さに合わせて無駄な計算を抑える「柔軟な入力ウィンドウ」にも対応するとのことです。GPUやNPU前提ではなくCPUのみで動くため、Raspberry PiやIoTデバイスでも稼働するといいます。

　ライブ用途向けのストリーミングモデルはTiny／Small／Mediumの3種類です。中でもMedium Streamingは2億4500万パラメータでWER 6.65%を記録し、Whisper Large v3（15億パラメータ、WER 7.44%）を上回りました。MacBook Pro上のベンチマークでは、Whisper Large v3比で「フレーズ確定後の応答」が大幅に速く、約100倍という数字も出ているそうです。各モデルの比較は以下の通りです。

モデル	パラメータ数	WER	処理速度（MacBook Pro）	処理速度（Linux x86）	処理速度（Raspberry Pi 5）
Moonshine Medium Streaming	2億4500万	6.65%	107ms	269ms	802ms
Whisper Large v3	15億	7.44%	11286ms	16919ms	N/A
Moonshine Small Streaming	1億2300万	7.84%	73ms	165ms	527ms
Whisper Small	2億4400万	8.59%	1940ms	3425ms	10397ms
Moonshine Tiny Streaming	3400万	12.00%	34ms	69ms	237ms
Whisper Tiny	3900万	12.81%	277ms	1141ms	5863ms

　対応言語は英語、スペイン語、中国語（標準中国語）、日本語、韓国語、ベトナム語、ウクライナ語、アラビア語の8言語です。Whisperが多言語を1つのモデルで扱う方式なのに対し、Moonshine Voiceは言語ごとに専用モデルを用意する方針を採っています。日本語はBaseモデルが5800万パラメータだそうです。

　ライセンス面では、ソースコードと英語モデルはMITライセンスで商用利用できますが、英語以外の言語モデルには「Moonshine AI Community License」を適用しています。研究・非商用のほか、年間売上100万ドル未満の個人や組織なら限定的な商用利用も無償で認めており、商用目的の場合は所定の登録が必要です。年間売上が100万ドルを超えるとライセンスが終了し、別途申請が必要になるとのことです。