「一番賢いモデルを使えばいい」。AIエージェントの構築を検討するとき、多くの企業がまずこう考える。気持ちはわかる。せっかく作るなら、間違えないものを作りたい。賢さは保険のように見える。
だが2026年6月、この素朴な戦略は静かに破綻した。
最上位モデルの価格が「2倍」になった
2026年6月9日、AnthropicがClaude Fable 5を公開した。同社の最上位「Mythosクラス」に属するモデルで、コーディング・知識労働・画像認識の主要ベンチマークでトップスコアを並べる、現時点で一般利用できるモデルとしては頭ひとつ抜けた存在だ。提供元自身の説明によれば、タスクが長く複雑になるほど他モデルとの差が開く──つまり、まさにエージェント的な仕事ほど強い。
そして価格は、入力100万トークンあたり10ドル、出力100万トークンあたり50ドル。わずか12日前の5月28日に公開され、最上位の座に就いたばかりだったClaude Opus 4.8(5ドル/25ドル)の、ちょうど2倍にあたる。
現行ラインアップを並べると、こうなる。
| モデル | 位置づけ | 入力($/100万トークン) | 出力($/100万トークン) | |
|---|---|---|---|---|
| Claude Fable 5 | 最上位(Mythosクラス) | $10 | $50 | |
| Claude Opus 4.8 | フラッグシップ | $5 | $25 | |
| Claude Sonnet 4.6 | バランス型の主力 | $3 | $15 | |
| Claude Haiku 4.5 | 高速・低コスト | $1 | $5 |
※料金は2026年6月11日時点のAPI価格。このほかOpus 4.8には速度優先の「Fast Mode」($10/$50)も別枠で提供されている。なおサブスクリプション(Pro/Max/Team等)では、Fable 5は2026年6月22日まで追加費用なしで利用でき、以降は利用クレジット制への移行が予告されている。最上位と最下位で、単価には10倍の開きがある。
10倍。この数字を「まあ、いいものは高い」と読み流してはいけない。エージェントの世界では、この差が掛け算で膨らむからだ。
エージェントは「呼び出し回数」で課金が爆発する
チャットボットとAIエージェントの決定的な違いは、内部で起きていることの量にある。
チャットなら、ユーザーの質問1回に対してモデルの呼び出しはおおむね1回。ところがエージェントは、ひとつの依頼を受けると、計画を立て、ツールを呼び、結果を読み、判断し、また次のツールを呼ぶ──という内部ループを回す。ユーザーから見れば1リクエストでも、裏では5回、10回、複雑なタスクなら数十回のモデル呼び出しが走っている。
つまりエージェントの総コストは、こういう式になる。
総コスト = モデル単価 × 1回あたりトークン量 × 呼び出し回数 × 利用頻度
単価は4つの変数のひとつにすぎない。だが唯一、設計の最初に固定してしまいがちな変数でもある。「最強モデル一択」とは、この式の先頭に最大値を代入してから残りを考える、ということだ。
そしてこれは仮想の話ではない。CNBCが2026年6月に報じたところでは、エンタープライズ検索企業GleanのCEOは、企業のAI利用の約95%が、安価なモデルで十分なタスクまで含めて最高価格帯のフロンティアモデルで動いていると推計している。同記事ではコーディングエージェントDevinを開発するCognitionのCEOも、定型的な作業なら小型モデルへの振り分けで5〜10倍のコスト効率が得られると述べている。最強一択は、いまも市場の多数派なのだ。
試算してみよう。社内問い合わせ対応エージェントを想定する。1日500リクエスト、1リクエストあたり平均8回のモデル呼び出し、1呼び出しあたり入力3,000トークン・出力500トークンとすると、月間(30日)で約3.6億入力トークン・6,000万出力トークンを消費する。
| 構成 | 月額(概算) | 備考 |
|---|---|---|
| すべてFable 5 | 約$6,600 | 「最強一択」の場合 |
| すべてOpus 4.8 | 約$3,300 | 従来の最上位一択 |
| すべてSonnet 4.6 | 約$1,980 | 主力モデル一択 |
| ルーティング構成 (Haiku 70% / Sonnet 25% / Opus 5%) |
約$1,120 | タスク難易度で振り分け |
同じ仕事量で、月額には約6倍の差がつく。差額は月およそ5,500ドル、年間では1,000万円を超える計算になる(1ドル=160円換算。為替は2026年6月時点の実勢)。しかもこれは1つのエージェントの話で、社内に複数のエージェントが走り始めれば、差はそのまま倍々で積み上がる。
答えは「使い分け」── モデルルーティングという設計
ではどう振り分けるのか。基本の考え方は単純で、タスクを難易度で分解し、それぞれに見合ったモデルを割り当てる。
図の意味を言葉にすると、こうだ。リクエストはまず軽量モデル(Haiku)が「これはどの難易度の仕事か」を分類する。定型的な抽出や分類はそのままHaikuが処理し、通常の応答はSonnetへ、本当に難しい推論だけが最上位モデルへ届く。高価なモデルは、高価な判断にだけ使う。レストランで言えば、皿洗いにシェフを立たせない、というだけの話だ。
興味深いのは、この設計をAnthropic自身がFable 5に組み込んでいることだ。Fable 5はサイバーセキュリティ・生物・化学などの高リスク領域のリクエストを検知すると応答を遮断し、Claudeアプリ等のクライアントでは処理をOpus 4.8に切り替える「フォールバック」構造を持つ(API利用ではデフォルトは遮断のみで、切り替えは任意設定)。公開直後の現時点では、防御目的のセキュリティ作業まで誤って切り替わるという利用者の報告もあり、検知の精度は発展途上ではある。それでも、理由はリスク管理ながら、構造としては「条件に応じてモデルを切り替える」ルーティングそのものであり、モデル提供元みずから単一モデル運用を前提にしていない、という事実は示唆的だ(この切り替え設計は、誤検知の実情も含めて第3回で詳しく扱う)。
単価表に出ないコストにも目を配る
ルーティングの次に効くレバーが2つある。
ひとつはプロンプトキャッシュ。エージェントは毎回、システムプロンプトや社内ナレッジなど同じ前提情報を読み込むが、これをキャッシュしておくと、キャッシュ読み取りの単価は通常入力の10分の1になる。前提情報が大きいエージェントほど効果は劇的だ。もうひとつはバッチ処理で、即時応答が不要な夜間集計のような処理なら、全モデル一律で50%オフになる。
逆に、単価表に表れない増加要因もある。たとえばOpus 4.7世代で導入されたトークナイザーは、同じテキストでも旧世代より最大35%多くトークンを数えることがある。これは公式ドキュメントの数字で、コードや構造化データを多く扱う利用者からは、実測でこれを上回る増加の報告も出ている。単価が据え置きでも、請求額は静かに増えうる。「単価×想定トークン数」の机上計算と実測値は、運用開始後に必ず突き合わせる必要がある。
天秤にかけるべきは「単価」ではなく「設計」
まとめよう。Fable 5の登場で起きたのは、単なる値上げではない。「迷ったら最強」という思考停止が許されない価格構造への移行だ。
- 最上位と最下位で単価10倍、エージェントでは呼び出し回数が掛かって差はさらに開く
- タスク分解とモデルルーティングで、同じ仕事量のコストは数分の1になる
- キャッシュとバッチでさらに削れるが、トークナイザー変更のような見えない増加要因もある
- そしてこの構成は一度作って終わりではなく、モデル世代が変わるたびに見直しが要る
つまりモデル選定とは、料金表を眺めて1行選ぶ作業ではなく、タスクの分解・振り分け・検証・更新追従までを含む継続的な設計業務だ。天秤の片方に載っているのは単価ではなく、この設計を誰がやり続けるのか、という問いである。
そして実は、コストよりも先に答えを出しておくべき問いがもうひとつある。そのエージェントに、何をする権限を渡すのか──だ。次回はこの「権限設計の天秤」を扱う。
参考情報
この記事をシェアする