
国産LLMがGPT-4oを超えた。
国立情報学研究所(NII)が、国産大規模言語モデル「LLM-jp-4」をオープンソースライセンスで公開しました。フルスクラッチ学習で構築された国産モデルです。しかも一部ベンチマークではGPT-4oやQwen3-8Bを上回っています。
公開されたのは約86億パラメータの「LLM-jp-4 8Bモデル」と、約320億パラメータのMoEモデル「LLM-jp-4 32B-A3Bモデル」の2つです。
日本語MT-Benchのスコアは8Bが7.54、32B-A3Bが7.82。これはGPT-4oの7.29、Qwen3-8Bの7.14を上回っている数値です。なお英語のMT-Benchでも8Bが7.79、32B-A3Bが7.86で、GPT-4oの7.69を上回りました。
学習に使われたのは、事前学習約10.5兆トークンと中間学習約1.2兆トークンを合わせた約11.7兆トークンです。一方、事前学習コーパス自体は総計約19.5兆トークンで、日本語約7000億トークン、英語約17.8兆トークン、他言語(中国語・韓国語)約8500億トークン、プログラムコード約2000億トークンで構成。政府文書や国会文書まで含まれているのが、今回のモデルの特徴のひとつです。最大で約6万5000トークンの入出力に対応しています。
モデルはHugging Faceで公開済みです。ライセンスはHugging Face上のモデルカードで「Apache License, Version 2.0」。
さらにNIIは2026年度中に「LLM-jp-4 32Bモデル」や、より大規模なMoEモデル「LLM-jp-4 332B-A31Bモデル」、軽量モデルの公開も予定しています。日本の公的研究機関から、こうした自然な日本語のできるオープンな国産モデルが出てくる流れはかなりワクワクします。




















