「AIのタダ乗り」は許さない…Perplexity訴訟で加速するAIクローラー防御戦争

●この記事のポイント
・日本メディアのPerplexity提訴を契機に、AI企業がrobots.txtを無視して情報を収集する問題が表面化。従来の“性善説”型のウェブルールが限界を迎え、技術でデータを守る時代に突入している。
・AWSやクラウドフレアなどがAIクローラー検知・妨害技術を相次ぎ投入。ディープラーニングによる挙動解析やTarpitting、Poisoningなど、AIの“無断クロール”を阻む新たなセキュリティ市場が急成長している。
・AI防御が普及するほどAI企業は良質データの確保が困難となり、ウェブはログイン壁・AI防御壁で二極化。企業はデータを開く・閉じる・売るの三択を迫られ、データ戦略が新たな競争軸となりつつある。
2025年、日本の主要メディアが一斉に動いた。読売新聞、朝日新聞、日経新聞が、米Perplexity AIを相手取り「無断クロールによる著作権侵害」で提訴。毎日新聞や産経新聞も強く抗議し、「AIによるデータ略取」への危機感はメディア業界を越えて社会全体へ広がりつつある。
背景には、これまで数十年にわたり続いてきた“ウェブの紳士協定”の崩壊がある。ウェブサイトの情報はrobots.txtで「見てもいい/見てはダメ」を指定できる。これは検索エンジンが互いの利益のために守ってきた、いわば性善説のルールだった。しかし、生成AIが登場すると事情は一変する。
AIはウェブ上の情報を学習し、回答生成に利用する。その結果、ユーザーは検索結果を見ずにAIの回答だけで完結する“ゼロクリック”へ流れ、媒体側の広告収入が急減。かつて「黙認」されていたクローリングは、もはや収益構造そのものを脅かす行為に変わった。
法廷闘争が進む一方で、裏側では技術ベースの「データ防衛戦争」が始まっている。AWS、クラウドフレア、アカマイといった世界のクラウド大手が、AIクローラーを検知し、撃退する“新しいセキュリティ”市場へ本格参入し始めたのだ。
法律の専門家たちも、今回の訴訟は“AIの振る舞いそのもの”を問う初の大規模事例として注目する。争点は著作権侵害だけではなく、“AIが社会のルールを無視したときに、誰が責任を負うのか”という根源的問題に及ぶ。
●目次
なぜ従来の「拒否設定」は無力化したのか?
■robots.txtは「鍵」ではなく「張り紙」だった
長らくウェブはrobots.txtという仕組みに依存してきた。
・/allow:見てもいい
・/disallow:見てはだめ
・User-Agent:どのクローラーかを識別
だが、この仕組みは「守る義務がある」という強制力を持たない。実際には“正しい企業”が真面目に従ってくれていただけで、法的拘束力も認証プロセスもない。家の前に“立入禁止”と貼っているだけで、門も鍵もないようなものだった。
グーグルやBingのような大手検索エンジンはルールを守ってきたが、AI企業の一部はその限りではない。
「User-Agent偽装は、10年以上前から存在する“古典的手法”です。しかし、生成AIの登場によって“偽装の規模”が桁違いになり、従来の仕組みが機能しなくなった。もはや倫理や慣習では防げません。検索経由のトラフィックが減り、広告収益が直接的に失われています。“データを盗まれる”というより、“流通経路を奪われる”という危機感が強いのです」(ITジャーナリスト・小平貴裕氏)
■AI企業は「User-Agent偽装」でルールを回避する
Perplexity問題が象徴的だが、以下のような回避手法が指摘されている。
・一般ユーザーのブラウザに偽装してアクセスする(スプーフィング)
・ロボットであることを隠すように振る舞う
・IPアドレスを分散し、トラフィックから特定されにくくする
これでは、サイト側がUser-AgentやIPによって「AIボットかどうか」を判断することはほぼ不可能だ。AIは、人間のようにページ単位でゆっくり閲覧するのではなく、機械的に一瞬で大量のページを巡回し、内容を丸ごと吸い上げていく。
従来の対策は、いわば“窓に鍵を付けたが、泥棒は壁を破って入ってくる”のと同じ構造で、すでに限界を迎えている。
「AI撃退」の最新技術:AWS、クラウドフレア、アカマイの戦略
■“AIクローラー専用の防御”という新しい市場が誕生
2024〜25年にかけて、クラウド大手はAIボット対策機能を次々とリリースしている。
●クラウドフレア「AI Crawl Control」
2024年に登場した新機能で、世界中のウェブトラフィックを解析して得られる“AIボット特有の行動パターン”を検知する。
・人間には不可能なページ巡回速度
・一切のマウス操作・画面遷移の軌跡がない
・特定のURLを連続的に大量アクセス
クラウドフレアは世界中のインターネットの約20%を保護する巨大CDNであり、その膨大なデータが“AIの動き”を丸裸にする。
●AWS「AWS WAF + Bot Control」
Bot Controlにより“不自然なアクセス”を自動判別。AIボットのアクセスはDNSレベルで遮断される。WAF(Web Application Firewall)は本来、サイバー攻撃対策の技術だが、AIボットも“新しいサイバー攻撃”として扱われ始めている。
●アカマイも同領域へ参入
世界最大級のCDNネットワークを持つアカマイは、ボット管理ソリューションを強化し、AIクローラーも排除対象とした。
■技術的アプローチ
① ディープラーニングによる“挙動”判定
従来:User-AgentやIPを見て判断
今:行動パターン(Behavior)をAIで判別
・1秒間に異常な数のリクエスト
・同じパターンでページを一気に取得
・クリック跡・スクロールの欠如
・短時間で大量のテキスト抽出
“人間ではありえない”挙動をAIが学習し、ボットかどうかを高精度で見分ける。
② Tarpitting(足止め)
アクセス自体は許すが、応答を極端に遅くする。ボット側はタイムアウトを起こし、大量クロールが難しくなる。“砂利道に迷い込ませる”ような技術だ。
③ Data Poisoning(毒データの混入)
AIクローラーに対してだけ、意味のない文章・ランダムなデータを返す。結果的に学習効率が下がり、AIモデルの品質が劣化する。
④ Honeypot(罠ページ)
人間は絶対に踏まないリンクを配置し、それを踏んだアクセスをAIだと判定して遮断する。
「AIボットは特定の企業だけが狙われているのではありません。世界的に“あらゆるサイトが一斉にクロール対象”になっています。つまり、防御の仕組みは“全企業の共通インフラ”として必要になる。海外クラウドが一斉にAI対策を出したのは必然です」(同)
急拡大する「データ防衛市場」のポテンシャル
■防御対象は“メディア”だけではない
今後、AIボットに狙われるのは以下のような領域だ。
・ECサイト(価格データ)
・不動産サイト(物件情報)
・SNS(投稿データ)
・レビューサイト
・研究・教育機関(論文、教材)
・行政データポータル
企業が自社の知的財産として蓄積してきた“文章・データ”は、価値ある資産であり、AIに吸い取られては困る。
■「データを守るコスト」がIT予算の定番に
これまでIT予算は「サーバー維持」「情報セキュリティ」「開発コスト」が中心だった。しかしこれからは、「データ防衛費」が必須項目に昇格する。AIボットが無断で吸い取ることで失われるのは広告収益だけではない。企業が蓄えてきた「独自性」そのものが奪われてしまう。
■セキュリティベンダーにとっての巨大市場
AWS、クラウドフレア、アカマイ、Fastlyなどはすでに参入済み。加えて、専業スタートアップも欧米で多数誕生している。
市場規模は、今後5年で数千億円規模まで伸びるという予測も出始めた。理由は単純で、すべての企業が「データ」を持ち、それを守る必要があるからだ。
AI開発への影響と「データ枯渇」の未来
■防御が強まるほど、AI企業は“良質データ”を失う
AIの性能を決めるのはモデルの大きさではなく、高品質な学習データである。しかし、AIクローラーがブロックされるほど、手に入るデータは限定される。
●結果:AI企業は“買うしかなくなる”
すでに動きは始まっている。
・OpenAI × News Corp
・OpenAI × Axel Springer
・グーグル × Reddit
世界のメディアとAI企業が次々とライセンス契約を結び、「データは無料ではない」という時代に入った。
■Open Webの衰退と情報の“壁”の時代
AIボット対策が広がると、企業・メディアは
・ログイン壁(Login Wall)
・有料壁(Paywall)
・AI防御壁(Anti-AI Wall)
のいずれかを採用し、外部からの閲覧をコントロールするようになる。
公開情報は減り、ウェブ上のデータは「アクセスできる者」と「できない者」に分断される。
■AIの精度向上にも限界が訪れる?
大量の良質データを使えなくなると、AIの発展スピードは鈍化する可能性がある。そこで浮上するのがシンセティックデータ(合成データ)だ。
AIが自らデータを生成し、それを学習する。しかしこの方法は「幻覚の増幅」「バイアスの固定化」「実世界との乖離」といった問題を引き起こす危険もある。
“本物の生データ”が持つ価値は、かつてないほど高まっている。
「高品質データの枯渇は、AI研究にとって“GPU不足より深刻”です。良質な文章データは限られており、AIが自動生成した合成データを再学習すると、劣化が連鎖的に進む危険があります」(同)
■問われる企業の「データ戦略」—“取られない仕組み”の実装がスタンダードになる時代
AI企業との対立は、単なる法廷闘争では終わらない。企業は今後、以下の3択を迫られる。
1.データを開く(AIへの提供を許す)
2.データを閉じる(AIから保護する)
3.データを売る(有料ライセンスにする)
これまで当たり前に“無料で公開していた情報”が、企業経営における重要な戦略資産として再評価されつつある。
AIが情報を吸い続ける世界で、企業は自社データの価値を見直し、「守るべきか、売るべきか、開くべきか」を明確に示さなければならない。
AIの爆発的普及がもたらしたのは“情報の民主化”ではなく、“データの奪い合い”が加速する新時代である。
そして今、企業の次の競争軸は、生成AIではなく――「自社データをどう守るか」という“AIクローラー防御戦争”の最前線へと移りつつある。
(文=BUSINESS JOURNAL編集部)











