
Xiaomi(シャオミ)が2025年12月16日、Mixture-of-Experts(MoE)方式の大規模言語モデル「MiMo-V2-Flash」を公開しました。総パラメータは3090億で、推論時に主に動くアクティブパラメータは150億。高速な推論と、ツールを扱うエージェント型の使い方を想定します。
Sliding Window Attention(SWA)とGlobal Attentionを5:1で織り交ぜ、ウィンドウ幅を128トークンに絞って計算量やKVキャッシュを抑えます。さらにMulti-Token Prediction(MTP)を組み込み、生成を加速する狙いも明確です。コンテキスト長は最大25万6000トークンまで対応するようです。
推論サーバー実装「SGLang」が公開初日から対応。SWAやMTPを前提にした実サービングの設計思想を前に出し、スループットとレイテンシのバランスを取りやすいモデルになっています。
ユーザーが触れる入口として、ブラウザで試せる「Xiaomi MiMo Studio」も用意します。
なおXiaomiは2025年5月にも、推論タスク向けの「MiMo-7B」をオープンソースで公開しています。大手がモデルを囲い込む流れと並行して、中国勢がオープンモデルで存在感を示す構図も続いており、その流れにあると言えそうです。




















