「国産LLMは、ChatGPTやClaudeやGeminiに追いついたのか」。国産モデルの話になると、ほぼ必ずこの問いが出る。そして、この問いに正直に答えると「いいえ」になる。
だが——問いの立て方そのものが、答えを取り違えさせている。今日はその話をしたい。
ベンチマークは残酷だ。だが、それは一面にすぎない
最も客観性の高い日本語総合ベンチマークのひとつ Nejumi Leaderboard 4 の2026年3月版では、首位から順に Gemini 3.1 Pro(0.8430)、Claude Opus 4.6(0.8394)、GPT-5.2(0.8285)。総合スコア0.80を超えた11モデルの上位は、海外3強と中国系のオープンモデルが占めた。そして同版の総合トップ50には、国産モデルは1つも入っていない。
数字だけを見れば、勝負はついている。汎用的な賢さを基準に国産を選ぶ理由は、いまのところ見当たらない。
ところが、同じデータをもう一段細かく見ると、景色が変わる。日本語の指示追従を測る JFBench では、Preferred NetworksのPLaMo 2.2 Prime(310億パラメータ)が GPT-5.1 と同等のスコアを出している。パラメータ数で10倍以上小さいモデルが、特定の日本語タスクではフロンティアに並ぶ。なお同社は2026年6月22日に最新版PLaMo 3.0 Primeを正式リリースし、推論/非推論の2系統とコンテキスト長256Kへの拡張で実用性をさらに高めている(詳細は第3回で扱う)。
「総合では負ける。特定の仕事では伍する」——これが国産の現在地だ。
そして、この一文が出てきた時点で、最初の問いはもう壊れている。「追いついたか/代替できるか」は、性能という一本の物差しだけで世界を測る問いだった。だが、企業がAIを選ぶとき、物差しは一本ではない。
「代替できるか」ではなく「どの軸で見るか」
企業がモデルを選ぶ物差しは、少なくとももう一本ある。データを国内・自社に閉じられるか、業界特化が効くか、オンプレで安く回せるか、そして特定ベンダーが使えなくなっても代替が利くか——まとめて「主権・特化」の軸だ。
この二本の軸で地図を描くと、現在地がはっきり見える。
横軸は汎用フロンティア性能。縦軸は「主権・特化」だ。海外3強は右側(高性能)にいるが、縦軸では中央より下にいる。理由は後述するが、ひとことで言えば「最終的な統制権が自社・自国の側にない」からだ。一方、国産勢は左寄り(性能では劣る)だが、上側(主権では強い)に位置する。
ここで一番大事なのは、右上——高性能かつ高主権——の象限が、いま世界中でほぼ空白だということだ。この空白をめぐる競争こそが、いま起きていることの正体である。「3強の代替」ではなく「空白の奪い合い」。問いを組み替えると、国産勢の動きが急に意味を持って見えてくる。
縦軸は、なぜ消えないのか
「性能はいずれ追いつく。だから縦軸の優位も一時的だろう」と思うかもしれない。実際、性能差は縮んでいる。だが縦軸——主権の軸——は、性能が追いついても消えない。理由は3つある。
ひとつ、データの行き先。 金融・医療・行政・防衛には、データを物理的に国外へ出せない、あるいは出したくない要件がある。NTTのtsuzumiが、他社モデルを種にせず完全に一から作る「フルスクラッチ・純国産」にこだわるのは、学習データの権利と法令遵守を自社で完全にコントロールするためだ。これは性能の話ではない。統制の話だ。性能で追いつかれても、統制の所在は動かない。
ふたつ、コストの逆転。 エージェントが普及すると、API課金は「呼び出し回数」で膨らむ(この力学は別連載『AIエージェント構築、その前に』第1回で詳述した)。高頻度利用の企業では、3年程度でオンプレ運用のほうが安くなる逆転が起きる。tsuzumi 2が「GPU1基で動くこと」に執着するのは、この逆転点を企業の手元に引き寄せるためだ。安さは、性能とは別のダイヤルである。
みっつ、可用性。 これは2026年6月、現実の事件として突きつけられた。6月12日、米政府の輸出管理指令を受けて、AnthropicがClaude Fable 5・Mythos 5へのアクセスを全ユーザー向けに停止した。公開からわずか3日後の出来事で、復旧の時期も示されなかった。他のモデル(Opus 4.8など)は影響を受けなかったが、重要な業務を単一の海外ベンダーのAPIに預けることは、それ自体が可用性リスクになりうる——この事件が、国産を「保険」として見直す動きに火をつけた。
この3つ目は、本連載と別連載の接続点でもある。別連載『AIエージェント構築、その前に』では、エージェント内部でモデルをどう切り替え、どう縮退させるかという技術的なフォールバック設計を扱った。本連載が問うのは、その一段手前だ。そもそも切り替える先・降りる先に、国産LLMという選択肢は成立するのか。能力の段を下げる設計があっても、降りる先の床がなければ意味がない。その「床」を点検するのが、この連載である。
国産勢は「3つの戦略」に分かれている
乱立して見える国産勢も、開発思想で割ると3つに整理できる。本連載は、この3分類を軸に各論を進める。
| 戦略 | 代表モデル | 武器 | 扱う回 | |
|---|---|---|---|---|
| フルスクラッチ主権型 | tsuzumi 2 / PLaMo / Sarashina | 純国産・オンプレ・学習データの法的クリーンさ | 第3回 | |
| 派生・特化型 | ELYZA / Takane / cotomi v3 | 垂直特化・エージェント適性(MCP準拠など) | 第4回 | |
| 束ねる型 | Sakana AI(Fugu) | 複数モデルを指揮するオーケストレーション | 第5回 |
フルスクラッチ主権型は、汎用基盤を自前で一から作り、主権とオンプレを売る。派生・特化型は、汎用基盤の開発を捨て、ベースモデル+日本語追加学習+ドメイン特化で勝負する。そして束ねる型は、自前の巨大モデルを作る競争から降り、既存モデルを組み合わせて指揮する——いわば「単独モデルの性能比較」という土俵そのものを外しにきた発想だ。3つは優劣ではなく、空白地帯への異なる攻め筋として読むのが正しい。
ただし、同じ「国産」でも主権の度合いは一様ではない。フルスクラッチ型は基盤モデルそのものを自社で握るのに対し、派生型は既存の基盤モデル——たとえばELYZAはMetaのLlama——の上に日本語を重ねる。土台が海外製である分、純粋なデータ主権という一点ではフルスクラッチ型に一歩譲る。先の図で派生・特化型をフルスクラッチ主権型よりやや下に置いたのは、この差を表している。
この連載が描く地図
全6回で、国産LLMの現在地を「総論→国家戦略→各論→実装」の順に降りていく。
- 二層構造の地図(本記事)— なぜ「代替できるか」という問いが間違っているのか
- 国家戦略編 — デジタル庁「源内」と2027年4月の本格調達。政府のお墨付きが民需に効く構造
- フルスクラッチ主権型 — tsuzumi 2 / PLaMo / Sarashina。オンプレTCOの逆転と法的クリーンさ
- 特化とエージェント適性 — ELYZA / cotomi v3 / Takane。垂直特化の経済学とMCP準拠
- 束ねる型 — Sakana AIとオーケストレーション。「第3の道」という思想
- 実装編 — 自社のAIスタックに国産をどの層で組み込むか。主権リスクへの保険と、選定の判断軸
まとめ
- 汎用ベンチでは海外3強が0.80超を独占し、国産はトップ50圏外。「代替できるか」だけを見れば、答えはもう出ている
- だがそれは性能という一本の物差しの話にすぎない。企業の選定軸にはもう一本、主権・特化・コスト・可用性がある
- 性能は追いつきうるが、主権の軸は「データの行き先」「コスト逆転」「可用性」の3つの理由で消えない
- 国産は「海外3強の汎用代替」としてはまだ弱い。だが「主権の保険」「特化のメイン」としては、すでに実用段階に入っている
- 問うべきは「追いついたか」ではなく「どの軸で、どの業務に、どう置くか」だ
国産LLMを「海外勢の劣化版」として眺めているうちは、この市場で起きていることは見えてこない。空白地帯の地図を手にして、はじめて各プレイヤーの動きが意味を持つ。次回は、その地図の上で最も大きく動いた一手——政府による国産LLMの選定を扱う。
参考情報
PLaMo 2.2 Primeをリリースしました(Preferred Networks Tech Blog/JFBenchでGPT-5.1と比較)
「Claude Fable 5」「Mythos 5」全面停止 米政府の指令により Anthropicは早期復旧を宣言(ITmedia NEWS)
この記事をシェアする