弊誌はアフィリエイト広告を利用しています。

Google、モバイル端末向け高性能AIモデル「Gemma 3n」プレビュー版を発表

 Googleは2025年5月20日、スマートフォンなどのモバイル端末上で直接動作する、新しいオープンAIモデル「Gemma 3n」のプレビュー版を発表しました。

 これは、同社が最近発表した「Gemma 3」および「Gemma 3 QAT」に続くもので、クアルコム、メディアテック、サムスンシステムLSIと緊密に連携して開発。日常的に使用するモバイル端末上、つまりオンデバイスでのリアルタイム動作を念頭に置いたものです。

 「Gemma 3n」は、この新アーキテクチャを採用した初のオープンモデルで、開発者は本日からプレビュー版を通じてこの技術を試用できます。今年後半に提供予定の次世代「Gemini Nano」にも採用される予定。

 「Gemma 3n」の特筆すべき点は、Google DeepMindが開発した「Per-Layer Embeddings (PLE)」技術の活用により、実行時のメモリ使用量を大幅に削減していることです。パラメータ数は5B(50億)および8B(80億)ですが、この革新技術により、2Bおよび4Bモデルに匹敵するメモリ負荷で動作し、クラウドからのライブストリーミングも可能になります。結果として、わずか2GBおよび3GBという小さな動的メモリフットプリントでの運用を実現したと説明しています。

 「Gemma 3n」は、モバイル環境での応答速度を従来モデル(Gemma 3 4B)比で約1.5倍に高め、品質も大幅に向上させています。これはPLEなどの技術革新によりメモリフットプリントを削減したことで実現されました。また、「Many-in-1柔軟性」として、4Bのアクティブメモリフットプリントを持つモデル内に2Bの高性能サブモデルを内蔵し、性能と品質のバランスを動的に調整可能です。ローカル実行によるプライバシー重視とオフライン対応も特徴で、インターネット接続なしでも確実に機能します。

 さらに、音声、テキスト、画像処理に加え、動画理解能力も大幅に強化され、高品質な音声認識や翻訳といったマルチモーダルな処理に対応するとともに、日本語、ドイツ語、韓国語、スペイン語、フランス語など多言語での性能も向上しています。

 「Gemma 3n」により、開発者は端末上でリアルタイムの視覚・聴覚情報に応答する対話型体験や、音声、画像、動画、テキストを組み合わせた高度なコンテキスト生成、リアルタイム音声文字起こし・翻訳といった音声中心のアプリケーション開発が可能になるそうです。

 プレビュー版は本日より、「Google AI Studio」を通じてブラウザ上で試用できます。ローカル環境での開発を検討している開発者向けには、「Google AI Edge」がツールとライブラリを提供し、テキストと画像の理解・生成機能から利用を開始できるということです。

情報元Google
詳しく読む
すまほん!!を購読しませんか?

Twitterでも最新更新を配信・通知しています

フォローする 再度表示しない