AIエージェント構築、その前に　第1回：モデル選定の天秤 — 「最強モデル一択」が崩れた日 - Blog - unType Inc. | 株式会社アンタイプ

「一番賢いモデルを使えばいい」。AIエージェントの構築を検討するとき、多くの企業がまずこう考える。気持ちはわかる。せっかく作るなら、間違えないものを作りたい。賢さは保険のように見える。

だが2026年6月、この素朴な戦略は静かに破綻した。

最上位モデルの価格が「2倍」になった

2026年6月9日、AnthropicがClaude Fable 5を公開した。同社の最上位「Mythosクラス」に属するモデルで、コーディング・知識労働・画像認識の主要ベンチマークでトップスコアを並べる、現時点で一般利用できるモデルとしては頭ひとつ抜けた存在だ。提供元自身の説明によれば、タスクが長く複雑になるほど他モデルとの差が開く──つまり、まさにエージェント的な仕事ほど強い。

そして価格は、入力100万トークンあたり10ドル、出力100万トークンあたり50ドル。わずか12日前の5月28日に公開され、最上位の座に就いたばかりだったClaude Opus 4.8（5ドル／25ドル）の、ちょうど2倍にあたる。

現行ラインアップを並べると、こうなる。

モデル	位置づけ	入力（$/100万トークン）	出力（$/100万トークン）
Claude Fable 5	最上位（Mythosクラス）	$10	$50
Claude Opus 4.8	フラッグシップ	$5	$25
Claude Sonnet 4.6	バランス型の主力	$3	$15
Claude Haiku 4.5	高速・低コスト	$1	$5

※料金は2026年6月11日時点のAPI価格。このほかOpus 4.8には速度優先の「Fast Mode」（$10／$50）も別枠で提供されている。なおサブスクリプション（Pro/Max/Team等）では、Fable 5は2026年6月22日まで追加費用なしで利用でき、以降は利用クレジット制への移行が予告されている。最上位と最下位で、単価には10倍の開きがある。

10倍。この数字を「まあ、いいものは高い」と読み流してはいけない。エージェントの世界では、この差が掛け算で膨らむからだ。

エージェントは「呼び出し回数」で課金が爆発する

チャットボットとAIエージェントの決定的な違いは、内部で起きていることの量にある。

チャットなら、ユーザーの質問1回に対してモデルの呼び出しはおおむね1回。ところがエージェントは、ひとつの依頼を受けると、計画を立て、ツールを呼び、結果を読み、判断し、また次のツールを呼ぶ──という内部ループを回す。ユーザーから見れば1リクエストでも、裏では5回、10回、複雑なタスクなら数十回のモデル呼び出しが走っている。

つまりエージェントの総コストは、こういう式になる。

総コスト＝モデル単価 × 1回あたりトークン量 × 呼び出し回数 × 利用頻度

単価は4つの変数のひとつにすぎない。だが唯一、設計の最初に固定してしまいがちな変数でもある。「最強モデル一択」とは、この式の先頭に最大値を代入してから残りを考える、ということだ。

そしてこれは仮想の話ではない。CNBCが2026年6月に報じたところでは、エンタープライズ検索企業GleanのCEOは、企業のAI利用の約95%が、安価なモデルで十分なタスクまで含めて最高価格帯のフロンティアモデルで動いていると推計している。同記事ではコーディングエージェントDevinを開発するCognitionのCEOも、定型的な作業なら小型モデルへの振り分けで5〜10倍のコスト効率が得られると述べている。最強一択は、いまも市場の多数派なのだ。

試算してみよう。社内問い合わせ対応エージェントを想定する。1日500リクエスト、1リクエストあたり平均8回のモデル呼び出し、1呼び出しあたり入力3,000トークン・出力500トークンとすると、月間（30日）で約3.6億入力トークン・6,000万出力トークンを消費する。

構成	月額（概算）	備考
すべてFable 5	約$6,600	「最強一択」の場合
すべてOpus 4.8	約$3,300	従来の最上位一択
すべてSonnet 4.6	約$1,980	主力モデル一択
ルーティング構成（Haiku 70% / Sonnet 25% / Opus 5%）	約$1,120	タスク難易度で振り分け

同じ仕事量で、月額には約6倍の差がつく。差額は月およそ5,500ドル、年間では1,000万円を超える計算になる（1ドル＝160円換算。為替は2026年6月時点の実勢）。しかもこれは1つのエージェントの話で、社内に複数のエージェントが走り始めれば、差はそのまま倍々で積み上がる。

答えは「使い分け」── モデルルーティングという設計

ではどう振り分けるのか。基本の考え方は単純で、タスクを難易度で分解し、それぞれに見合ったモデルを割り当てる。

flowchart TD A[ユーザーのリクエスト] --> B{タスク分類<br>Haiku 4.5} B -->|定型・抽出・分類| C[軽量処理<br>Haiku 4.5] B -->|要約・通常の応答| D[標準処理<br>Sonnet 4.6] B -->|複雑な推論・設計判断| E[高度処理<br>Opus 4.8 / Fable 5] C --> F[結果の統合・回答] D --> F E --> F

図の意味を言葉にすると、こうだ。リクエストはまず軽量モデル（Haiku）が「これはどの難易度の仕事か」を分類する。定型的な抽出や分類はそのままHaikuが処理し、通常の応答はSonnetへ、本当に難しい推論だけが最上位モデルへ届く。高価なモデルは、高価な判断にだけ使う。レストランで言えば、皿洗いにシェフを立たせない、というだけの話だ。

興味深いのは、この設計をAnthropic自身がFable 5に組み込んでいることだ。Fable 5はサイバーセキュリティ・生物・化学などの高リスク領域のリクエストを検知すると応答を遮断し、Claudeアプリ等のクライアントでは処理をOpus 4.8に切り替える「フォールバック」構造を持つ（API利用ではデフォルトは遮断のみで、切り替えは任意設定）。公開直後の現時点では、防御目的のセキュリティ作業まで誤って切り替わるという利用者の報告もあり、検知の精度は発展途上ではある。それでも、理由はリスク管理ながら、構造としては「条件に応じてモデルを切り替える」ルーティングそのものであり、モデル提供元みずから単一モデル運用を前提にしていない、という事実は示唆的だ（この切り替え設計は、誤検知の実情も含めて第3回で詳しく扱う）。

単価表に出ないコストにも目を配る

ルーティングの次に効くレバーが2つある。

ひとつはプロンプトキャッシュ。エージェントは毎回、システムプロンプトや社内ナレッジなど同じ前提情報を読み込むが、これをキャッシュしておくと、キャッシュ読み取りの単価は通常入力の10分の1になる。前提情報が大きいエージェントほど効果は劇的だ。もうひとつはバッチ処理で、即時応答が不要な夜間集計のような処理なら、全モデル一律で50%オフになる。

逆に、単価表に表れない増加要因もある。たとえばOpus 4.7世代で導入されたトークナイザーは、同じテキストでも旧世代より最大35%多くトークンを数えることがある。これは公式ドキュメントの数字で、コードや構造化データを多く扱う利用者からは、実測でこれを上回る増加の報告も出ている。単価が据え置きでも、請求額は静かに増えうる。「単価×想定トークン数」の机上計算と実測値は、運用開始後に必ず突き合わせる必要がある。

天秤にかけるべきは「単価」ではなく「設計」

まとめよう。Fable 5の登場で起きたのは、単なる値上げではない。「迷ったら最強」という思考停止が許されない価格構造への移行だ。

最上位と最下位で単価10倍、エージェントでは呼び出し回数が掛かって差はさらに開く
タスク分解とモデルルーティングで、同じ仕事量のコストは数分の1になる
キャッシュとバッチでさらに削れるが、トークナイザー変更のような見えない増加要因もある
そしてこの構成は一度作って終わりではなく、モデル世代が変わるたびに見直しが要る

つまりモデル選定とは、料金表を眺めて1行選ぶ作業ではなく、タスクの分解・振り分け・検証・更新追従までを含む継続的な設計業務だ。天秤の片方に載っているのは単価ではなく、この設計を誰がやり続けるのか、という問いである。

そして実は、コストよりも先に答えを出しておくべき問いがもうひとつある。そのエージェントに、何をする権限を渡すのか──だ。次回はこの「権限設計の天秤」を扱う。

参考情報

この記事をシェアする

X (Twitter) LinkedIn Facebook Bluesky Threads

AIエージェント構築、その前に　第1回：モデル選定の天秤 — 「最強モデル一択」が崩れた日

最上位モデルの価格が「2倍」になった

エージェントは「呼び出し回数」で課金が爆発する

答えは「使い分け」── モデルルーティングという設計

単価表に出ないコストにも目を配る

天秤にかけるべきは「単価」ではなく「設計」

参考情報

山下太郎

Categories

あわせて読みたい

llms.txtはSEOには効かない。だからこそ重要だ —— エージェントに「読まれる」Webという作法

AIエージェント時代の権限設計第5回:AIガバナンスは設計判断である ― 連載②の総決算と外部相互作用への接続

AIエージェント時代の権限設計第4回:プロンプトインジェクションを前提とした境界設計 ― 完全防御不能な領域で何ができるか

AIエージェント構築、その前に 第1回：モデル選定の天秤 — 「最強モデル一択」が崩れた日

最上位モデルの価格が「2倍」になった

エージェントは「呼び出し回数」で課金が爆発する

答えは「使い分け」── モデルルーティングという設計

単価表に出ないコストにも目を配る

天秤にかけるべきは「単価」ではなく「設計」

参考情報

山下 太郎

Categories

あわせて読みたい

llms.txtはSEOには効かない。だからこそ重要だ —— エージェントに「読まれる」Webという作法

AIエージェント時代の権限設計 第5回:AIガバナンスは設計判断である ― 連載②の総決算と外部相互作用への接続

AIエージェント時代の権限設計 第4回:プロンプトインジェクションを前提とした境界設計 ― 完全防御不能な領域で何ができるか

AIエージェント構築、その前に　第1回：モデル選定の天秤 — 「最強モデル一択」が崩れた日

山下太郎

AIエージェント時代の権限設計第5回:AIガバナンスは設計判断である ― 連載②の総決算と外部相互作用への接続

AIエージェント時代の権限設計第4回:プロンプトインジェクションを前提とした境界設計 ― 完全防御不能な領域で何ができるか