谷歌的AI优势:为何爬虫分离是构建公平互联网的唯一途径

发表于:昨天 12:41 7
谷歌的AI优势:为何爬虫分离是构建公平互联网的唯一途径

本周早些时候,英国竞争与市场管理局(CMA)就针对谷歌的一系列拟议行为要求启动了咨询。该咨询旨在征求各方对拟议要求的意见,然后CMA才会实施任何最终措施。这些新规则旨在解决出版商(广义定义为“在网络上提供内容的任何一方”)在谷歌如何利用搜索为其生成式AI服务和功能提供支持方面所面临的选择缺乏和透明度不足的问题。这是英国数字市场竞争制度下首次启动的行为要求咨询。我们欢迎CMA认识到出版商需要更公平的待遇,并相信拟议规则是朝着正确方向迈出的一步。出版商应有权获得工具,使其能够控制其内容是否被纳入生成式AI服务,而AI公司应在公平的竞争环境中竞争。但我们认为CMA做得还不够,应该采取更多措施来保护英国的创意产业,并促进生成式和代理式AI市场的健康竞争。

CMA将谷歌指定为具有战略市场地位

2025年1月,随着《2024年数字市场、竞争与消费者法案》(DMCC)的实施,英国的监管格局发生了重大的法律转变。CMA现在不再依赖反垄断调查来解决竞争风险,而是可以在企业拥有实质性、根深蒂固的市场力量时,将其指定为具有战略市场地位(SMS)。这一指定允许CMA在数字市场进行有针对性的干预,例如施加详细的行为要求,以改善竞争。2025年10月,鉴于谷歌在英国搜索市场占有90%的份额,CMA指定其在通用搜索和搜索广告领域具有SMS。至关重要的是,这一指定涵盖了AI概览和AI模式,CMA现在有权对谷歌的搜索生态系统施加行为要求。CMA施加的最终要求不仅仅是建议,而是具有法律强制执行力的规则,可以专门针对AI爬虫行为,并伴有重大制裁,以确保谷歌公平运营。

出版商需要一种有效的方式来选择退出谷歌将其内容用于生成式AI

CMA的指定再及时不过了。正如我们之前所说,我们无疑正处于一个互联网需要为AI爬虫行为制定明确“道路规则”的时代。正如CMA正确指出的那样,“由于谷歌在通用搜索中拥有的市场力量,出版商除了允许谷歌爬取其内容用于通用搜索外,没有其他现实选择。然而,谷歌目前在其搜索生成式AI功能及其更广泛的生成式AI服务中都使用了这些内容。”换句话说:谷歌为搜索索引抓取的相同内容也被用于推理/基础目的,例如AI概览和AI模式,这些功能依赖于从互联网获取实时信息以响应用户的实时查询。这对出版商和竞争都造成了重大问题。

因为出版商无法承受在其网站上禁止或屏蔽谷歌的搜索爬虫Googlebot,他们不得不接受其内容将被用于生成式AI应用程序,例如谷歌搜索中的AI概览和AI模式,而这些应用几乎不会(如果有的话)给他们的网站带来流量。鉴于谷歌搜索在将人类流量导向在线广告方面的关键作用,这破坏了支撑数字出版数十年的广告支持商业模式。这也意味着谷歌的生成式AI应用程序通过复制出版商的内容(通常没有署名或补偿)直接与出版商竞争。出版商因谷歌在搜索领域的主导地位而不愿屏蔽谷歌,这给了谷歌在生成式和代理式AI市场中不公平的竞争优势。

与其他AI机器人运营商不同,谷歌可以利用其搜索爬虫为各种AI功能收集数据,而几乎不用担心其访问会受到限制。它几乎没有动力为这些数据向出版商付费,因为它已经免费获得了这些数据。这阻碍了一个运作良好的市场的出现,在这个市场中,AI开发者可以就内容的公平价值进行谈判。相反,其他AI公司没有动力参与谈判,因为一个允许一个主导参与者完全绕过补偿的系统使它们在结构上处于不利地位。正如CMA自己所认识到的,“通过不提供足够控制内容使用方式的能力,谷歌可以限制出版商将其内容货币化的能力,同时以一种其竞争对手无法匹敌的方式获取内容用于AI生成的结果。”

谷歌的优势

Cloudflare的数据证实了人们对谷歌竞争优势的担忧。根据我们的数据,Googlebot访问的互联网内容明显多于其最接近的同行。在为期两个月的观察期内,Googlebot成功访问的单个页面数量几乎是ClaudeBot和GPTBot的两倍,是Meta-ExternalAgent的三倍,是Bingbot的三倍多。对于其他流行的AI爬虫,差异甚至更为极端:例如,Googlebot访问的唯一页面数量是PerplexityBot的167倍。在过去两个月我们观察到的使用我们网络的抽样唯一URL中,Googlebot爬取了大约8%。以四舍五入的倍数计算,Googlebot访问的唯一URL数量大约是:


  • ClaudeBot的约1.70倍;
  • GPTBot的约1.76倍;
  • Meta-ExternalAgent的约2.99倍;
  • Bingbot的约3.26倍;
  • Amazonbot的约5.09倍;
  • Applebot的约14.87倍;
  • Bytespider的约23.73倍;
  • PerplexityBot的约166.98倍;
  • CCBot的约714.48倍;
  • archive.org_bot的约1801.97倍。


Googlebot在其他Cloudflare数据集中也表现突出。尽管按总流量计算,它是最活跃的机器人,但与其他爬虫相比,出版商在其robots.txt文件中禁止或屏蔽Googlebot的可能性要小得多。这可能是由于它通过搜索将人类流量(以及由此产生的广告收入)导向其内容的重要性。如下所示,几乎没有网站完全明确禁止双重用途的Googlebot,这反映了这个机器人通过搜索推荐驱动流量的重要性。(请注意,部分禁止通常影响网站中与搜索引擎优化无关的部分,例如登录端点。)

Robots.txt仅允许表达爬取偏好;它不是强制执行机制。出版商依赖“良好机器人”来遵守。为了更有效地管理爬虫对其网站的访问(并且独立于特定机器人的合规性),出版商可以设置具有特定规则的Web应用程序防火墙(WAF),从技术上防止不需要的爬虫访问其网站。遵循与上述robots.txt相同的逻辑,我们预计网站会主要屏蔽其他AI爬虫,而不是Googlebot。事实上,当比较2025年7月至2026年1月期间使用Cloudflare自己的AI爬虫屏蔽工具(集成在我们的应用程序安全套件中)的客户数据时,可以看到,主动屏蔽其他流行AI爬虫(例如GPTBot、Claudebot)的网站数量几乎是屏蔽Googlebot和Bingbot的网站数量的七倍。(与Googlebot类似,Bingbot结合了搜索和AI爬取,并为这些网站带来流量,但鉴于其在搜索中的市场份额较小,其影响不那么显著。)



因此,我们同意CMA对问题的陈述。但是,如何使出版商能够有效地选择退出谷歌将其内容用于其生成式AI应用程序呢?我们赞同CMA的结论,即“为了能够就谷歌如何使用其搜索内容做出有意义的决定,(...)出版商需要能够有效地选择将其搜索内容退出谷歌的搜索生成式AI功能和谷歌更广泛的生成式AI服务。”但我们担心CMA的提议不够充分。

CMA拟议的出版商行为要求

2026年1月28日,CMA发布了四套针对谷歌的拟议行为要求,包括与出版商相关的行为要求。根据CMA的说法,拟议的出版商规则旨在解决以下担忧:出版商(1)对谷歌如何在其AI生成的响应中使用其内容缺乏足够的选择权,(2)对谷歌使用该内容的透明度有限,以及(3)未能因谷歌使用其内容而获得有效的署名。CMA认识到这些担忧的重要性,因为谷歌搜索在在线查找内容方面扮演着重要角色。

行为要求将强制谷歌授予出版商对其内容是否用于AI功能(如AI概览)的“有意义且有效”的控制权。谷歌将被禁止采取任何会负面影响这些控制选项有效性的行动,例如故意在搜索中降低内容的排名。为了支持明智的决策,CMA的提议还要求谷歌提高透明度,发布关于其如何将爬取的内容用于生成式AI以及其各种出版商控制在实践中具体涵盖内容的清晰文档。最后,该提议将要求谷歌确保对出版商内容进行有效署名,并向出版商提供详细的、分类的参与数据——包括展示次数、点击次数和“点击质量”的具体指标——以帮助他们评估允许其内容用于AI生成的搜索摘要的商业价值。

CMA拟议的补救措施不足

尽管我们支持CMA为改善出版商选择所做的努力,但我们担心拟议的要求并未解决促进对其内容被谷歌使用方式的公平、透明选择的根本问题。出版商实际上被迫使用谷歌专有的选择退出机制,这些机制专门绑定到谷歌平台,并受谷歌设定的条件约束,而不是赋予他们直接、自主的控制权。一个由平台制定规则、管理技术控制并定义应用范围的框架,并没有为内容创作者提供“有效控制”,也没有鼓励市场的竞争性创新。相反,它强化了一种永久依赖状态。

这样的框架也减少了出版商的选择。创建新的选择退出控制使得出版商无法选择使用外部工具来阻止Googlebot访问其内容,同时又不危及其在搜索结果中的出现。相反,根据当前的提议,内容创作者仍将不得不允许Googlebot抓取其网站,没有可部署的强制执行机制,并且如果谷歌不尊重他们发出的偏好,可用的可见性也有限。CMA对这些要求的强制执行,如果做得恰当,将非常繁重,且不能保证出版商会信任该解决方案。

事实上,Cloudflare已收到客户的反馈,称谷歌当前的专有选择退出机制,包括Google-Extended和‘nosnippet’,未能防止内容以出版商无法控制的方式被利用。这些选择退出工具也没有为出版商提供公平补偿的机制。更广泛地说,正如我们提出的负责任AI机器人原则所反映的那样,我们认为所有AI机器人都应有一个明确的目的并声明它,以便网站所有者可以就谁可以访问其内容以及为何访问做出明确的决定。与其主要竞争对手(如OpenAI和Anthropic)不同,谷歌并未遵守Googlebot的这一原则,Googlebot被用于多种目的(搜索索引、AI训练和推理/基础)。

仅仅要求谷歌开发一种新的选择退出机制,并不能让出版商对其内容的使用实现有意义的控制。赋予出版商必要控制的最有效方式是要求Googlebot被拆分成独立的爬虫。这样,出版商可以允许爬取用于传统搜索索引(他们需要以此来吸引流量到其网站),但可以阻止其内容在生成式AI服务和功能中的不必要使用。

要求爬虫分离是唯一有效的解决方案

为了确保公平的数字生态系统,CMA必须转而授权内容所有者从一开始就阻止谷歌为特定目的访问其数据,而不是依赖在爬虫已经为其他目的访问了内容后由谷歌管理的变通方法。这种方法也使创作者能够为访问其内容设定条件。

尽管CMA将爬虫分离描述为一种“同等有效的干预措施”,但它最终基于谷歌认为这过于繁重的意见而拒绝了强制分离。我们不同意。要求谷歌按目的拆分Googlebot——就像谷歌已经对其其他近20个爬虫所做的那样——不仅在技术上是可行的,而且是一种必要且相称的补救措施,它使网站运营商能够获得他们目前缺乏的精细控制,而不会增加爬虫对其网站的流量负载(事实上,如果他们选择阻止AI爬取,甚至可能减少负载)。

需要明确的是,爬虫分离补救措施除了让英国出版商对其内容有更多控制外,还通过平衡它们与谷歌之间的竞争环境而使AI公司受益。(《每日邮报》集团、《卫报》和新闻媒体协会已广泛公开支持爬虫分离补救措施。)强制爬虫分离对谷歌来说并非劣势,也不会破坏对AI的投资。相反,它是一种促进竞争的保障措施,防止谷歌利用其搜索垄断在AI市场获得不公平优势。通过将这些功能解耦,我们确保AI发展由公平市场竞争驱动,而不是由单一超大规模企业的垄断地位所利用。

******

英国有一个独特的机会,在保护互联网上原创和高质量内容的价值方面引领世界。然而,我们担心当前的提议还不够。我们鼓励制定规则,确保谷歌在内容访问方面与其他AI开发者处于相同条件下,有意义地恢复出版商的自主权,并为促进内容货币化的新商业模式铺平道路。Cloudflare仍然致力于在即将进行的咨询中与CMA及其他合作伙伴合作,提供基于证据的数据,以帮助制定针对性强、相称且有效的行为要求的最终决定。CMA仍有机会确保互联网成为内容创作者和较小AI参与者的公平市场——而不仅仅是少数科技巨头的天下。



原文链接:Google’s AI advantage: why crawler separation is the only path to a fair Internet
收藏
送赞
分享

发表回复