
Llama 4とは何だったのか……。
AIモデル開発競争で全く冴えなかったMetaですが、ついに本気で殴り込んできました。新AIモデル「Muse Spark」を発表しました。
2025年6月末に再編されたMeta Superintelligence Labs(MSL)から生まれた、Museシリーズ第1弾となります。
まずネーミングについてですが、AI業界でSparkといえばNVIDIA DGX Sparkがありますが、それはさておき、何よりMuseという単語が気になりますよね。これはギリシア神話の女神です。ちょうどClaudeの性能が高すぎて一般非公開となった新モデルMythos(神話)を彷彿させるネーミングです。ちょっと対抗してるかもしれませんね。
さて、肝心のモデルの性能ですが、まず性能の跳ね上がり方がすごい。Artificial Analysis Intelligence Indexのスコアですが、前世代のLlama 4 Maverickは、なんとたったの18、Scoutに至っては13の超絶クソザコスコアでした。
ところがMuse Sparkで一気に52を記録。1年で完全に別物になっちゃいましたね……。Artificial Analysisの評価では、上にはClaude Opus 4.6(53)、Gemini 3.1 Pro Preview(57)、GPT-5.4(57)しかいません。

トークン効率もえげつない。ベンチマーク測定に必要な出力トークン数は5800万で、Gemini 3.1 Pro Preview(5700万)とほぼ同等。一方、Claude Opus 4.6は1億5700万、GPT-5.4は1億2000万トークンを消費します。つまり、同等級の性能を比較的少ない出力トークンで引き出している形です。
イメージとしては、トークン効率とは「同じ問題を解くのにどれだけ言葉数を使うか」のこと。少ないトークンで正解にたどり着けるモデルほど、同じ単価ならAPIコストを抑えやすいので、Muse Sparkはいわば寡黙だけど切れ者タイプって感じですかね。
ただし、APIはまだ一般公開されていないので、料金面の優位が確定したわけではありませんし、「ベンチマーク上だけは優れているGemini Proに対して明らかにOpusの方が賢いよな」と感じるように、ベンチマーク上の数値が実際の体験に直結するとは限らない点には注意しましょう。あと用途によっても全然変わりますしね。
また、モデル自体はネイティブマルチモーダルで、「Contemplating」と呼ばれる推論モードも打ち出しています。複数のサブエージェントを並列で走らせる仕組みで、視覚系ベンチマークのMMMU-Proでは80.5%を記録。Gemini 3.1 Pro Previewに次ぐ2位です。
そして最大の転換。Muse SparkはMetaの主要新モデルとしては初の非オープンウェイトモデルです。オープンウェイト路線で存在感を示してきたMetaですが、今回はクローズド寄りの提供形態を選びました。APIも選定パートナー向けのプライベートプレビューという形で限定提供です。Metaは、Muse Spark自体ではなく、将来のバージョンのオープンソース化を望むとしています。
なお、Muse Sparkを開発したMSLを率いる中心人物の1人は、Scale AI創業者のAlexandr Wang。Metaが143億ドルでScale AIの49%株式を取得する取引の一環で迎え入れた人物ですね。
Muse Sparkは現在、meta.aiとMeta AIアプリでの提供が始まっています。Facebook、Instagram、WhatsApp、Messenger、AIグラスにも今後数週間で順次展開予定です。
Llama 4のスコア18からたった1世代で52まで駆け上がったMeta。オープンウェイトをいったん脇に置いて手にしたものは、フロンティア級モデルへの復帰でした。次のMuseが再びオープンになるのかどうか、Metaの判断が注目されます。


















