ローカルで画像も音声も動画もこなすAIがきた。
Googleが新しいオープンウェイトモデル「Gemma 4 12B」を2026年6月3日に公開しました。パラメータ数は約120億で、Googleは16GBのVRAMまたはユニファイドメモリを備えたノートPCでもローカル実行できるサイズだと説明しています。クラウドに投げず端末の中だけで処理が完結する、いわゆるオンデバイスAI(端末内で動く生成AI)の現実的な選択肢が、また一つ増えたということですね。
目玉は「エンコーダーフリー」(画像や音声を処理する大きな専用エンコーダーを使わない構造)と呼ばれる設計です。
じつは従来のマルチモーダル(複数種類の入力を扱う仕組み)モデルは、画像や音声を読み込むための別パーツを抱えていました。しかし今回、Gemma 4 12Bはそこを省き、画像パッチや音声波形を軽量な線形層で言語モデル本体の埋め込み空間に渡します。Googleは、これでマルチモーダル処理の遅延やメモリ使用を抑えられるとしています。
ざっくり簡略化して言えば、これまでは「翻訳係」を一人挟んで画像や音をAIへ伝えていたのを、大きな専用翻訳係をなくして、AI本体へ近い形で渡すようにした、という話です。つまり仲介役が減った分だけ、動きが軽くなりやすいわけですね。
扱える入力はテキスト、画像、音声、そして動画です。動画については、連続したフレームを処理して解析する仕組みです。なお、中型のGemmaでネイティブ音声入力に対応するのは今回が初めてだといいます。
デモでは、Google I/O基調講演の約5分間の一部を、1秒1フレームで切り出した313フレームと音声を合わせて解析してみせました。性能面でも、総パラメータ数が倍近い26B A4Bモデルに迫るベンチマークがあり、旧世代のGemma 3 27Bを多くの指標で上回っています。約120億パラメータでこれはすごい。
ライセンスは商用利用もしやすいApache 2.0です。重みはHugging FaceやKaggleで配布され、Ollama、LM Studio、Google AI Edge Gallery、LiteRT-LM CLIでも試せます。さらにllama.cppやMLX、SGLang、vLLMといった実行環境にも対応します。
手元のノートPCが、外のサーバーに頼らずどこまで賢くなれるのか。さらに大型の最先端クラウドで動く大手のAIにはまだまだ劣るものの、小さな軽いタスクならどんどんこなせるようになってきています。端末の中でAIが完結していく流れは、今後も加速していきそうですね。





































