我々は今、誰のために文章を書いているのか
長いあいだ、ウェブの文章には二人の読者がいた。一人は人間。もう一人は検索エンジンのクローラーだ。我々はこの二人に向けて書き、前者のために言葉を選び、後者のために構造を整えてきた。SEOと呼ばれる営みは、煎じ詰めれば「クローラーという読者にどう振る舞うか」の技術だった。
ところが、いつの間にか三人目の読者が部屋に入ってきていた。AIである。
いま、ある人があなたの会社に興味を持ったとする。その人はもう、必ずしも公式サイトを訪れない。検索結果の青いリンクを順番にクリックすることもない。代わりにChatGPTやClaudeに尋ねる。「○○って会社、どんなとこ?」と。そして返ってきた数百字の答えを読んで、わかった気になる。あるいは、わかった気にさせられる。
このとき、AIが何と答えているかを、企業はほとんどコントロールできていない。自社のサイトをどれだけ磨いても、AIが学習データの中で自社をどう記憶しているかは別の話だ。検索エンジンの順位なら順位チェックツールで見られる。だが「AIは我が社をどう説明しているか」を、日常的に確認している経営者がどれだけいるだろうか。
私はある日、ふと思った。自分の会社のことを、AIは正しく知っているのだろうか。そして、もっと気になったのは——日本を代表する大企業ですら、AIにはどう見えているのだろう、ということだった。
この記事は、その素朴な疑問を実際に手を動かして確かめた記録である。SEOからAEO(Answer Engine Optimization)へ。読み手が静かに入れ替わりつつあるこの時代に、「AIに読まれる」とは何を意味するのか。まず、言葉の整理から始めたい。
SEOは死んでいない、しかし読み手が変わった
AEOという言葉を初めて聞く人のために、ごく簡単に整理しておく。
SEOが「検索結果の上位に表示されること」を目指す最適化だったのに対し、AEO(あるいはGEO=Generative Engine Optimization)は「AIの回答の中に、正しく登場すること」を目指す最適化だ。両者は対立する概念ではなく、地続きの延長線上にある。検索という入口がAIとの対話に置き換わりつつある、その変化に対応するための考え方だと捉えればいい。
ここで一つ、重要な区別を立てておきたい。後の実験結果を読み解く土台になるので、少し丁寧に書く。
AIが企業について答えるとき、その答えには大きく二つの源泉がある。
一つは、事前学習による認知だ。AIは膨大なテキストを学習している。その学習データの中に、その企業がどれだけ豊かに、正確に含まれていたか。これが、AIが検索を使わずに記憶だけで答えるときの土台になる。ChatGPTやClaudeに「○○について教えて」と聞いて、何も検索せずに返ってくる答えは、この事前学習認知が反映されている。
もう一つは、検索を経た認知だ。Perplexityのように、質問を受けてからウェブを検索し、見つけた情報をもとに答えるAIがある。この場合、AIが何と言うかは、検索でヒットする一次情報の質に大きく左右される。
この二つは、まったく別物だ。学習データの中で有名でも、検索でうまく見つからなければ後者は低くなる。逆もまた然りである。「AIに知られている」と一口に言っても、どちらの経路で知られているかで、企業が打つべき手はまるで変わってくる。
この記事では、この二つの認知経路を意識しながら、実際にAIたちに日本の大企業について語らせてみる。
実験の設計 — 恣意性をどう排除したか
ここから先は、実際のデータの話になる。だがその前に、「なぜこの実験が信頼に足るのか」を、手続きの面から説明させてほしい。データそのものより、データの取り方のほうが大事なことがあるからだ。
対象は、くじが選んだ
まず、どの企業を調べるか。ここに恣意性が入ると、実験全体が台無しになる。「AIがよく知らなそうな企業を選んでおいて、ほら知らないでしょう」と見せるのは簡単だが、それは検証ではなく演出だ。
そこで、対象企業は日経225の構成銘柄から乱数で機械的に抽出した。抽出には日付をシード値とした疑似乱数を使い、コードごと記録してある。誰が再現しても同じ5社が選ばれる。我々が選んだのではなく、くじが選んだ、というわけだ。
選ばれたのは次の5社だった。
| 証券コード | 企業名 | 業種 | |
|---|---|---|---|
| 6103 | オークマ | 機械(工作機械) | |
| 1812 | 鹿島建設 | 建設(スーパーゼネコン) | |
| 8058 | 三菱商事 | 商社(総合商社) | |
| 6902 | デンソー | 電気機器(自動車部品) | |
| 6971 | 京セラ | 電気機器(電子部品) |
(業種は日経225の分類セクションに準拠した。デンソーは東証の33業種分類では「輸送用機器」に分類されるが、日経225では「電気機器」セクションに含まれる。括弧内は事業内容の補足である。)
偶然にしては、なかなか示唆に富む顔ぶれが揃った。誰もが名前を知る三菱商事や鹿島建設のような企業がある一方で、工作機械のオークマのように、業界では世界的な存在でありながら一般の知名度はそれほど高くない企業も混じった。この「知名度のばらつき」が、後で効いてくる。
全社に、同じ二つの問いを
質問は全社共通で、ごくシンプルな二つにした。
一つ目は「○○について教えてください。どのような事業を展開していますか?」という、事業内容を尋ねる問い。二つ目は「○○の強みや他社との違いは何ですか?」という、差別化を尋ねる問い。
どちらも、システムプロンプトのような小細工は一切加えていない。一般の人がAIに何気なく打ち込む、その自然な問い方をそのまま使った。
測定には、自社開発の検証環境を使った
これらの質問を4つのAIに同時に投げ、回答を採点する作業には、弊社が診断サービスの開発過程で構築した独自の検証環境「AIライブテスト」を用いた。4つのAIへ並行して質問を投下し、それぞれの回答を、機械的なルールベース評価とAI自身による評価(AI-as-judge)を半々で組み合わせたハイブリッド方式で0〜100点に数値化する仕組みである。
ここで、結果を正しく読んでもらうために、三つのことを正直に書いておきたい。これは弁解ではなく、実験の前提条件の開示だ。
一つ目。4つのAIは「同格の比較」ではない。 Claude、ChatGPT、Geminiの3つは検索をせず学習データの記憶だけで答える「事前学習認知」のグループ。Perplexityだけは検索してから答える「検索認知」で、性質が異なる。本文では便宜上4つを並べて見せるが、Perplexityだけは土俵が違う、と頭の片隅に置いてほしい。
二つ目。今回はあえて各社の軽量モデルを使った。 最上位のフラッグシップモデルではなく、無料または低コストで提供されている軽量版(Claude Haiku、GPT-4o-mini、Gemini Flash、Perplexity Sonar)を選んでいる。これは手抜きではなく、明確な意図だ。最も多くの人が日常的に無料で使っているのは、まさにこの軽量モデルである。つまり、あなたの会社について世の中で最も多く語られているのは、この層のAIなのだ。「最高性能のAIならこう答える」よりも、「みんなが実際に使っているAIがこう答えている」ほうが、企業にとってはずっと切実だろう。
三つ目。採点を担うAI審査役には、Claudeを使っている。 「Claudeが審査するならClaudeに甘いのでは」と疑う人がいるはずだ。もっともな疑問である。だが結果を見ると、むしろ逆だった。後述するように、Claudeは自社(Claude)の回答に対して、4つのAIの中で最も辛い点をつけていた。身内びいきどころか、最も自己批判的だったのだ。この点はデータが証明してくれる。
各社3回ずつ測り、中央値を採った
AIの回答には、同じ質問でも毎回わずかな揺らぎがある。一度きりの結果で「このAIはこう答えた」と断じるのは危うい。そこで各社について同じテストを3回繰り返し、その中央値を採用した。
結果として、この反復はデータの安定性を裏づけることになった。企業ごとの3回のスコアのばらつき(標準偏差)は0.47〜1.25と極めて小さく、AIの回答は思った以上に一貫していた。「たまたまこう答えた」のではなく、「いつ聞いてもおおむねこう答える」のである。
準備は整った。では、AIたちは日本の大企業を、どう語ったのか。
結果その一 — AIには「性格」があった
最初に見えてきたのは、予想以上にくっきりした事実だった。同じ企業について、同じ質問をしても、AIによって評価が10点以上も違う。AIには、それぞれ明らかな「性格」がある。
5社×4AIのスコア中央値を一覧にすると、こうなる。
| 企業 | Claude | ChatGPT | Gemini | Perplexity | 社平均 | |
|---|---|---|---|---|---|---|
| オークマ | 77.0 | 82.5 | 95.0 | 83.5 | 84.5 | |
| デンソー | 83.0 | 88.0 | 95.0 | 83.0 | 87.2 | |
| 三菱商事 | 82.0 | 85.0 | 88.5 | 79.5 | 83.8 | |
| 京セラ | 80.5 | 80.0 | 88.0 | 83.0 | 82.9 | |
| 鹿島建設 | 82.0 | 88.0 | 94.0 | 84.5 | 87.1 | |
| AI平均 | 80.9 | 84.7 | 92.1 | 82.7 | — |
縦に眺めると、AIごとの個性が浮かび上がる。Geminiは全社で群を抜いて高く(平均92.1点)、どの企業についても饒舌かつ詳細に語った。対してClaudeは最も控えめで(平均80.9点)、慎重に、ときに自信なさげに答える。ChatGPTとPerplexityはその中間に位置した。
なぜGeminiはこれほど高得点なのか。理由の一部は、評価設計そのものにある。我々のルールベース評価は、回答の文字数・文の数・具体的な数値情報の有無を加点要素にしている。Geminiは回答が長く、項目立てが細かく、具体例を豊富に盛り込む傾向が強い。だから機械的なルールスコアが高く出やすい。実際、Geminiのルールスコア平均は95.6点で、4つのAIの中で最高だった。
ただし、これを単なる「評価のクセ」として片づけるのは早計だ。回答が具体的で情報量が多いことは、それを読むユーザーにとって実際に価値がある。「○○という会社です」とだけ答えるAIより、「○○という会社で、こういう技術に強みがあり、こんな製品を出しています」と答えるAIのほうが、質問者の役に立つ。我々のスコアが情報の充実度を評価するのは、恣意ではなく「ユーザーにとって役立つ回答かどうか」を測るための合理的な物差しだ。Geminiが高く出るのは、その物差しの上では妥当な結果なのである。
そして、横に眺めると、もう一つの発見がある。オークマのClaude列、77.0点。これは5社×4AIの組み合わせの中で、際立って低い数字だ。同じオークマをGeminiは95.0点と評価しているのだから、その差は実に18点。同じ企業について、同じことを聞いているのに、AIによってこれほど評価が割れる。
なぜオークマでClaudeだけが落ちたのか。種を明かすと、これは事業説明(一つ目の問い)ではなく、強み比較(二つ目の問い)で起きた現象だった。工作機械という、極めて専門性の高いBtoB領域。「何を作っている会社か」は答えられても、「他社と比べて何が優れているか」を問われると、慎重なAIは確かなことが言えなくなり、一般論でお茶を濁す。次の章で詳しく見るが、この「抽象的な問いに弱い」という傾向は、実は全AIに共通していた。
念のため — 審査役は身内びいきをしたか
ここで、先ほど予告した検証をしておきたい。採点を担うAI審査役はClaudeである。ならばClaudeの回答に甘い点をつけていないか。
データはこうだ。二つ目の問い(強み比較)におけるClaudeの最終スコアは、5社平均で76.7点。これは4つのAIの中で最も低い。審査役と同じ身内であるはずのClaudeが、最も辛い評価を受けている。とりわけオークマでは67点まで落ち込んだ。
つまり、少なくとも今回のデータに関する限り、身内びいきは起きていない。むしろClaudeは自分自身に対して最も厳しかった。審査の公平性を、データ自身が裏づけてくれた格好だ。
結果その二 — 質問が抽象的になるほど、AIは答えられなくなる
二つ目の発見は、すべてのAIに一貫して現れた、ある種の「弱点」だった。
我々は各社に二つの問いを投げている。一つ目は「どんな事業をしているか」という事実を尋ねる問い。二つ目は「強みや他社との違いは何か」という、評価や差別化を尋ねる問い。この二つで、スコアがどう変わったかを見てみる。
| AI | 事業説明(Q1) | 強み比較(Q2) | 低下幅 | |
|---|---|---|---|---|
| Claude | 85.0 | 76.7 | −8.3 | |
| ChatGPT | 86.8 | 82.5 | −4.3 | |
| Gemini | 94.3 | 89.1 | −5.2 | |
| Perplexity | 83.2 | 81.9 | −1.3 |
例外なく、すべてのAIで「強み比較」のほうがスコアが低い。問いが「何の会社か」から「なぜ優れているか」へと抽象度を上げたとたん、AIの回答品質は落ちる。とりわけClaudeの落ち込み(−8.3点)は大きい。
これは、考えてみれば自然なことだ。「何を作っている会社か」という事実は、ニュース記事でも、会社案内でも、無数のテキストに書かれている。学習データの中に豊富にある。だがその企業の「独自の強み」「競合との本当の違い」は、誰もが同じように語れるものではない。情報が薄く、しかも書き手によって言うことが違う。だからAIは確信を持てず、一般論——「高い技術力」「グローバルな展開」「品質へのこだわり」といった、どの企業にも当てはまる言葉——に逃げ込む。
ここに、企業にとって見過ごせない示唆がある。AIはあなたの会社が「存在すること」は知っていても、「なぜ選ばれるべきか」までは語ってくれないかもしれない。 事業内容なら勝手に説明してくれる。だが差別化や独自の価値は、よほど明快に世の中に発信していない限り、AIの口からは出てこない。一般論で塗りつぶされてしまう。
そして、知名度の差もここに絡む。社平均を見ると、デンソー(87.2点)や鹿島建設(87.1点)のように一般認知度の高い企業は、どのAIでも安定して高いスコアを得た。一方、オークマ(84.5点)や京セラ(82.9点)のように、業界では有名でも一般認知がやや薄い企業は、AIによってスコアの振れ幅が大きかった。
つまり、知名度の低い企業ほど「どのAIに聞かれるか」によって説明の質が大きく変わる。いわば「AIガチャ」のリスクが高い。あるAIは正確に語ってくれるが、別のAIでは一般論で済まされる。これは、BtoB企業や、一般消費者との接点が薄い企業にとって、無視できないリスクだろう。
では、AIに正しく読まれる文章とは
ここまでの実測から、「AIに正しく読まれる」ための原則が、いくつか自然に導かれる。説教ではなく、データが指し示している方向として読んでほしい。
第一に、事実を構造化して、明記する。 AIは、文章の中に企業名やサービス名が繰り返し現れ、具体的な数値や事実が記されている文章を、正確に拾う。曖昧な美辞麗句より、「いつ」「何を」「どれだけ」という具体が効く。我々の評価で具体性が加点されたのは、それがそのままAIの読みやすさに直結するからだ。
第二に、「何の会社か」だけでなく「なぜ選ばれるか」を言語化する。 今回のデータが最も強く示したのは、AIが差別化を語るのが苦手だという事実だった。裏を返せば、自社の強みを明快な言葉で世の中に置いておけば、それだけで他社と差がつく。AIが一般論に逃げる余地を、こちらから埋めておくのだ。
第三に、検索で見つかる場所に、一次情報を置く。 検索を経て答えるAI(Perplexity型)に対しては、学習データ内の記憶とは別の対策がいる。信頼できる一次情報——自社サイト、プレスリリース、公的な記録——が検索でちゃんとヒットすること。これが検索認知を支える。
第四に、一つのAIだけに最適化しない。 今回見たように、AIごとに評価のクセはまるで違う。特定のAIで高得点を取る小手先のテクニックを追うより、どのAIが読んでも明快に伝わる、普遍的なわかりやすさを目指すほうが、結局は強い。
そして第五に、これがいちばん大事なのだが——誠実に、正しく書く。 AEOを、かつてのSEOのような小手先のゲームだと捉えると、必ず筋を外す。AIが評価しているのは、突き詰めれば「その文章が、問いに対してどれだけ誠実に、正確に答えているか」だ。読み手がAIに変わっても、良い文章の条件は驚くほど変わらない。事実を、わかりやすく、正直に。それだけである。
三人目の読者に、誠実であること
我々はいま、三人の読者に向けて文章を書いている。人間と、クローラーと、AIだ。このうちAIは最も新しく、最も移ろいやすく、そして最もコントロールしにくい読者である。だが、今回の実測を終えてみて、その読者に向き合うための原則は、拍子抜けするほどシンプルだとわかった。誠実に、正しく、構造的に書く。それに尽きる。
小手先のテクニックでAIを出し抜こうとすれば、いずれ筋を外す。読み手が人間からAIへ移っても、良い文章の条件は驚くほど変わらない。事実を、わかりやすく、正直に並べること。今回くじが選んだ5社のデータが指し示していたのは、結局その一点だった。
そしてもう一つ、忘れてはならないことがある。AIがあなたの会社を語るとき、その言葉の素材になっているのは、世の中に置かれた無数の文章だ。あなたが、あるいは誰かが、いつか誠実に書いた言葉である。AIに正しく読まれたいなら、近道はない。正しく書くこと。それだけが、巡り巡って正しく読まれることにつながる。
株式会社アンタイプは、企業のAIエージェント互換性を測定する診断サービス「AIエージェント互換性診断Pro」を提供しています。本記事で用いた実測検証や、自社・競合のAI認知度の比較分析も承ります。
参考情報
Pranjal Aggarwal et al.「GEO: Generative Engine Optimization」(Princeton University, Georgia Tech, Allen Institute for AI, IIT Delhi、2023年)
Wikipedia「Generative engine optimization」
日経平均プロフィル「構成銘柄一覧」(本記事の銘柄抽出の母集団)
検証条件(付記)
対象: 日経225構成銘柄から乱数抽出した5社(オークマ・鹿島建設・三菱商事・デンソー・京セラ)
抽出日: 2026年5月20日 / 母集団225銘柄 / 再現可能な疑似乱数による抽出
質問: 全社共通2問(事業説明・強み比較)、システムプロンプトなし
使用モデル: Claude(Haiku 4.5) / ChatGPT(GPT-4o-mini) / Gemini(3 Flash) / Perplexity(Sonar)。いずれも各社の軽量モデル
評価方式: ルールベース評価とAI審査(AI-as-judge)を各50%で合成、0〜100点
反復: 各社3回実施、中央値を採用(企業別の反復間標準偏差 0.47〜1.25)
測定環境: 自社開発「AIライブテスト」
この記事をシェアする