はじめに ― 2つの「セマンティックセグメンテーション」が出会うとき
本連載では、一見するとまったく異なる2つの世界を旅してきました。
第1回・第2回では、コンピュータビジョンにおけるセマンティックセグメンテーションを扱いました。画像のピクセルを「人」「背景」「空」と意味で分類する技術。Google Meetの背景ぼかしから始まり、MetaのSAM 3が「テキストで指示するだけで画像内のあらゆるものを検出・分離できる」という革命を起こしたことを解説しました。
第3回では、Webの世界に視点を転換しました。セマンティックHTML、llms.txt、WebMCPという3つのレイヤーを通じて、Webサイトが「人間のためのインターフェース」と「機械のためのサービスレイヤー」の二重構造に進化しつつあることを示しました。
最終回の今回は、この2つの世界が交差する地点を描きます。
物理世界の「意味の分節化」(CV領域のセマンティックセグメンテーション)と、デジタル世界の「意味の分節化」(Webのセマンティック構造化)は、AIエージェントの中で統合されます。エージェントはSAM 3で商品画像を「見て」理解し、WebMCPを通じてECサイトで「購入を実行」する。画像認識とWeb操作が一本のパイプラインで繋がる。そうした未来がすでに見え始めています。
交差点1:ECの商品画像 × 購買エージェント
「見えない商品」は存在しない商品
AIエージェントがあなたの代わりに買い物をする時代において、商品画像の役割が根本的に変わりつつあります。
従来、ECサイトの商品画像は「人間が見て良さそうだと感じるため」のものでした。美しいライティング、魅力的なアングル、雰囲気のあるスタイリング。しかしAIエージェントは画像を「鑑賞」しません。解析します。
「AIが買い物をする時代」シリーズで解説したとおり、AIエージェントは商品を推薦するとき、構造化された属性データを参照します。色、素材、サイズ、スタイル、用途。これらの属性が整っていない商品は、エージェントの推薦候補にすら入りません。
ここにセマンティックセグメンテーションが接続します。SAM 3のような画像認識モデルを使えば、商品画像から「色:ネイビーブルー」「素材:ベルベット」「スタイル:ミッドセンチュリーモダン」「脚:テーパードウッド」といった属性を自動的に抽出できます。Microsoftは2026年1月のNRF(全米小売連盟)イベントで、Copilot Studioの「カタログエンリッチメントエージェント」テンプレートをパブリックプレビューとして公開しました。これは商品画像から属性を自動抽出し、構造化データとして商品カタログに反映するAIエージェントです。
この流れが意味するのは、商品画像がもはや「見た目」の問題ではなく「データ品質」の問題になったということです。画像の中に写っている情報が、構造化データとして正確にマッピングされるかどうか。それがAIに「選ばれる」か「無視される」かの分岐点になります。
画像 → 認識 → 構造化データ → 購買 の一気通貫
ここで第1回から第3回までの技術が一本の線で繋がります。
- SAM 3(第2回) が商品画像を解析し、商品の属性をピクセルレベルで認識する
- その結果が構造化データ(Schema.org / JSON-LD)として商品情報に反映される
- セマンティックHTML(第3回) で構造化されたWebページの中に、その情報が正しく埋め込まれる
- AIエージェントがllms.txt でサイトの概要を把握し、商品を発見する
- WebMCP(第3回) を通じて、エージェントが「カートに追加」「購入を完了」といったアクションを実行する
物理世界の「意味の分節化」(画像→属性)と、デジタル世界の「意味の分節化」(HTML→構造→アクション)が、エージェンティックコマースという文脈で一気通貫に接続される。これは遠い未来の話ではなく、個々の技術要素はすでに存在しており、統合が進んでいる段階です。
交差点2:アクセシビリティ × AIエージェント互換性
「人のための配慮」が「機械のための設計」になる
本連載で繰り返し触れてきたテーマがあります。アクセシビリティ対応とAIエージェント対応の構造的な一致です。
第1回・第2回で扱ったセマンティックセグメンテーションの応用例の一つに、画像のAltテキスト自動生成がありました。SAM 3で画像内の要素を意味レベルで分解し、その結果を言語モデルに渡すことで、「公園でフリスビーをする2匹の犬と子供」のような詳細な画像説明を自動で構築できる。これは視覚障害のあるユーザーにとっても、画像を解釈するAIエージェントにとっても、同じように有益です。
第3回で扱ったセマンティックHTMLも同じ構造です。<nav>、<main>、<article>といったセマンティック要素は、スクリーンリーダーが「ここはナビゲーションです」と読み上げるためのものであり、同時にAIエージェントが「ここがメインコンテンツだ」と認識するためのものでもある。VoiceOverで正しく読み上げられるサイトは、AIエージェントにとっても理解しやすい。
これは偶然の一致ではありません。どちらも本質的には「コンテンツの意味を、視覚に頼らずに伝える」という同じ問題を解決しようとしているからです。視覚障害者とAIエージェントは、どちらも「画面を目で見る」ことに依存しない形で情報を理解する必要がある。だからこそ、アクセシビリティのための設計は、そのままAIのための設計になる。
Web制作の現場においては、これは非常に実務的なメッセージになります。アクセシビリティに投資することは、同時にAIエージェント時代への投資でもある。 両者を別々のプロジェクトとして扱う必要はない。1つの投資で2つの未来に対応できる、稀有なケースです。
交差点3:物理空間 × デジタルツイン
SAM 3Dが示す「見る→3Dにする→配置する」の流れ
第2回で触れたSAM 3D(SAM 3と同時発表の3D再構成モデル)は、1枚の写真からオブジェクトや人体の3Dモデルを再構成する技術でした。Metaはこの技術をFacebook MarketplaceのView in Room機能に搭載し、ユーザーが出品された家具を自分の部屋にARで配置できるようにしています。
ここで起きていることを分解すると:
- セマンティックセグメンテーションで画像内のオブジェクトを認識・分離する
- 3D再構成でそのオブジェクトの立体モデルを生成する
- AR(拡張現実)でユーザーの物理空間にそのモデルを配置する
物理世界の商品を画像から「意味で理解」し、3Dデータとしてデジタル空間に再構成し、再びユーザーの物理空間にAR投影する。物理→デジタル→物理という循環が、セマンティックセグメンテーションを基盤として成立しています。
この技術は、ECだけでなく不動産のバーチャル内見、工業デザインのプロトタイピング、教育における3D教材、ロボティクスにおける環境理解など、「物理世界をデジタルで理解し操作する」あらゆる領域に波及していきます。
AIエージェント時代の「意味の設計」― これからのWeb制作に求められること
2つの問いに答えられるか
本連載を通じて見えてきたのは、AIエージェント時代のWebサイトが2つの問いに答えられなければならない、ということです。
「あなたのサイトは何ですか?」 ―― これはSchema.org、セマンティックHTML、llms.txtが答える領域です。サイトのコンテンツの意味と構造を機械に正しく伝える。
「あなたのサイトでは何ができますか?」 ―― これはWebMCPが答える領域です。サイト上で実行可能なアクションを、AIエージェントに直接公開する。
そして、これらの基盤を支えるのが画像の意味的な理解です。商品画像から属性を自動抽出し、構造化データに反映する。画像内容を認識してAltテキストを生成する。3D再構成でARプレビューを提供する。セマンティックセグメンテーションは、この視覚情報と構造化データの橋渡しを担います。
今すぐ着手すべきこと
企業やWeb制作者が今すぐ取り組むべきことを、優先度順に整理します。
第一に、セマンティックHTMLの徹底。 これが全ての土台です。<div>の海になっているページを、適切なセマンティック要素で構造化する。コストは低いが、効果は広範囲に及びます。スクリーンリーダーでの動作確認を品質基準に組み込むことを推奨します。
第二に、構造化データ(Schema.org / JSON-LD)の充実。 特にECサイトでは、商品の属性情報(色、素材、サイズ、価格、在庫状況、レビュー等)を可能な限り詳細に構造化してください。AIエージェントが商品を「理解」するための言語は、自然言語ではなく構造化データです。
第三に、サーバーサイドレンダリングの確保。 SPAであっても、初期HTMLにコンテンツが含まれる状態を担保する。AIクローラーの多くはJavaScriptを実行しません。クライアントサイドレンダリングのみのサイトは、AI時代に「存在しない」リスクがあります。
第四に、画像品質とメタデータの整備。 商品画像のAltテキストを充実させる。可能であれば、画像認識AIを使って商品属性の自動タグ付けを検討する。画像は「見た目の問題」から「データ品質の問題」に変わりました。
第五に、llms.txtの設置。 低コストの将来投資です。Anthropicが自社ドキュメントサイトにllms.txtを設置している事実が、将来の標準化への期待を裏付けています。
第六に、WebMCPの動向ウォッチと基盤整備。 WebMCP自体はまだアーリープレビュー段階ですが、その基盤となるHTMLフォームの構造化、安定したUXフロー、クリーンなサイト設計は今すぐ始められます。2026年後半以降のロールアウトに備えて、フォームのname属性やラベルの設計を見直しておくことを推奨します。
シリーズ総括 ― 「意味の分節化」がインフラになる時代
本連載のタイトルは「AIエージェント時代のセマンティックセグメンテーション」でした。
「セマンティックセグメンテーション」は、コンピュータビジョンの専門用語です。画像のピクセルを意味で分類する技術。しかし本連載を通じて明らかにしたかったのは、この技術が持つ原理の普遍性です。
- 画像のピクセルを意味で分類する(コンピュータビジョン)
- Webページの要素を意味で構造化する(セマンティックHTML)
- サイトのコンテンツをAI向けに要約する(llms.txt)
- サイトの機能を意味で公開する(WebMCP)
すべてに共通するのは、「世界を意味の単位に分節し、機械が理解できるようにする」という営みです。
人間は、世界を「意味で切り分ける」ことを無意識にやっています。目に映る風景を道路・建物・人・空に分け、Webページをナビゲーション・本文・広告に分け、商品を色・素材・価格で評価する。それは人間にとってはあまりにも自然な行為であるがゆえに、機械にとってどれほど難しいことか、普段は意識しません。
セマンティックセグメンテーションの研究が教えてくれるのは、この「意味で分ける」能力こそが知能の核心的な構成要素だということです。そしてAIがこの能力を急速に獲得しつつある今、私たちの側でも「意味が伝わるように世界を設計する」ことが求められています。
これはWeb制作にとって、新しい専門性の誕生を意味します。「意味の設計(Semantic Design)」とでも呼ぶべき領域。人間にも機械にも意味が正しく伝わるWebサイトを設計する力。画像の中身を構造化データに変換する力。サイトの機能をエージェントに公開する力。
unTypeは「コミュニケーションデザイン会社」として、この「意味の設計」に正面から取り組んでいきます。人間のためのデザインと機械のためのデザインが一致する場所。それが、これからのWebの最前線です。
参考情報
Microsoft「Microsoft propels retail forward with agentic AI capabilities」(2026年1月8日)
Optidan「Agentic Commerce: How AI Agents Will Find Products in 2026」(2025年11月)
commercetools「7 AI Trends Shaping Agentic Commerce in 2026」(2026年1月)
Airia「2026: The State of Agentic AI in Retail」(2026年1月)
Meta AI「Introducing Meta Segment Anything Model 3 and SAM 3D」(2025年11月)
Chrome for Developers「WebMCP is available for early preview」(2026年2月10日)
Barry Adams「Why Semantic HTML matters for SEO and AI」(2025年8月)
Adrian Roselli「OpenAI, ARIA, and SEO: Making the Web Worse」(2025年10月)
この記事は「AIエージェント時代の『セマンティックセグメンテーション』」シリーズの第4回(最終回)です。
WebサイトのAIエージェント対応診断、セマンティックHTML改善、構造化データの実装、画像認識AIの導入支援について、具体的なご相談はunTypeまでお気軽にお問い合わせください。
この記事をシェアする