谷歌AI搜索让网站陷入绝境：共享数据，还是等死？-青云谈的专栏

谷歌AI搜索让网站陷入绝境：共享数据，还是等死？

2024-08-19 19:56:48栏目：默认栏目 IP属地：IP未知

8月16日消息，谷歌已在其搜索页面顶端展示基于人工智能生成的便捷答案，这可能导致用户无需点击原始内容来源网站。然而，许多网站所有者表示，他们无法阻止谷歌的人工智能对其内容进行摘要，因为谷歌用于生成这些人工智能答案的网页抓取工具与常规搜索引擎的抓取工具相同。如果选择屏蔽谷歌，也会妨碍网站被用户发现。

谷歌在搜索领域占据主导地位，这为其在人工智能领域的竞争带来了显著优势。搜索初创公司和出版商均认为，当前的竞争环境对它们不公平。出版商面临严峻的抉择：要么提供内容支持人工智能模型（这可能削弱其网站的重要性），要么放弃谷歌搜索这个主要流量来源。

新闻网站Talking Points Memo的出版人乔·拉加佐（Joe Ragazzo）指出：“这对相关企业而言，无异于生死攸关的抉择。两种选择都不利：要么退出竞争，立即面临生存危机；要么与谷歌合作，虽然暂时存活，但最终也难逃被淘汰的命运。”

谷歌表示，其搜索结果顶部展示的AI Overviews摘要，是其持续提升信息质量和为出版商及其他企业拓展机遇的长期战略的一部分。谷歌发言人在声明中表示：“谷歌每天向全球网站输送数十亿次点击，我们致力于维护并深化这一长期的价值交换关系。通过AI Overviews，用户体验得到了提升，他们回到搜索引擎的频率更高，这为内容的发现创造了新的机遇。”

自创立以来，谷歌便通过Googlebot软件访问并“抓取”数以百万计的网站内容，构建起庞大的全球互联网索引。这一成就对试图建立竞争性搜索引擎的公司来说，形成了难以逾越的障碍，即便是像微软这样资金雄厚的企业也不例外。

随着生成式人工智能的兴起，一波新的初创公司涌现，旨在通过人工智能模型为用户提供精炼答案的搜索产品。聊天机器人的流行让谷歌内部对其搜索引擎的主导地位产生了前所未有的危机感。然而，这些初创公司在真正撼动谷歌业务之前，必须首先解决如何进行网页抓取的难题，而这并不容易。

抓取网站成本高昂，包括金钱、计算资源和存储空间。因此，许多出版商会通过设置文件规定爬虫访问其网站的规则。谷歌和微软必应通常能获得较大的访问权限，因为它们的搜索引擎能够为网站带来显著的流量。

然而，人工智能初创企业Tako Inc.的首席执行官亚历克斯·罗森伯格（Alex Rosenberg）表示，搜索引擎初创公司在未能获得市场关注前，无法承诺为网站带来相应的流量，这促使它们开始与出版商达成协议，通过支付内容授权费用获取内容。罗森伯格说：“如今，许多科技公司为内容付费，以确保获取竞争所需的资源，而谷歌则由于其特殊地位，无需这么做。”

在媒体公司与人工智能初创公司之间频繁合作的背景下，谷歌始终态度鲜明地加以抵制。据知情人士透露，除了与Reddit达成的6000万美元交易外，谷歌私下向出版商传达了无意参与内容授权谈判的立场。

在这些谈判中，媒体公司处于劣势地位，尤其是在今年谷歌推出AI Overviews后，该服务利用人工智能在搜索结果顶端提供简洁答案，立即引发了出版商对流量影响的担忧，但却没有明确的应对方案。

值得注意的是，谷歌在某些人工智能产品上使用了独立的爬虫（如Gemini聊天机器人），但其主要爬虫Googlebot仍同时服务于AI Overviews和常规搜索，原因在于这两者之间技术上密切相关。谷歌发言人解释说，这一安排是为了统一管理，确保搜索体验的一致性和高效性。

该发言人还指出，谷歌搜索结果页面以多种形式显示信息，包括图像和图表。此外，出版商可以选择阻止特定页面或部分内容出现在AI Overviews中。然而，这一选择可能伴随风险，即这些内容也将从谷歌所有搜索功能中消失，包括传统的网页链接列表。

由于大多数出版商的流量至少有一半来自搜索引擎，他们往往不愿轻易冒险削弱自身的网络影响力。

文创平台Raptive创新主管马克·麦科勒姆（Marc McCollum）代表出版商和网红指出，谷歌的立场未能充分考虑内容创作者面临的重大风险，特别是那些依赖搜索可见性为生的创作者。他警告说，选择退出可能会无意中降低创作者的整体搜索可见性，从而损害他们与受众的联系和收入能力。

iFixit网站（提供消费电子产品在线维修指南）的首席执行官凯尔·维恩斯（Kyle Wiens）表示，与其他人工智能公司相比，该网站与谷歌的关系更为“脆弱”。他强调：“我可以阻止Anthropic的ClaudeBot索引我们的网站而不影响业务，但若屏蔽Googlebot，我们将失去流量和客户。”

谷歌与Reddit的交易不仅为谷歌的人工智能模型提供了海量宝贵数据（来自Reddit用户就小众话题的深入讨论），还通过增加Reddit等论坛在搜索结果中的展示，显著推动了Reddit的流量增长。Reddit发言人还表示，产品质量和加载速度的提升也对流量增长起到了积极作用。

据知情人士透露，搜索初创公司Perplexity正与Reddit洽谈内容授权事宜，但谷歌与Reddit的协议价格高得令初创公司难以匹敌。谷歌表示，与Reddit的合作不仅限于数据训练，涵盖了更广泛的领域。Reddit方面对商业合作细节保持沉默。

面对此情此景，其他搜索初创公司则发现获取此类数据几乎不可能。搜索初创公司Kagi的创始人弗拉基米尔·普雷洛瓦茨（Vladimir Prelovac）坦言：“Reddit的报价足以耗尽我们20年的收入，因此我从未考虑过。”

不仅仅是小型初创公司面临这种困境。OpenAI最近推出的SearchGPT测试版虽然受到了广泛关注，但许多知名网站（如亚马逊、Goodreads、优衣库）已屏蔽其GPT爬虫，这可能会对OpenAI的搜索业务构成挑战。OpenAI表示，即使网站拒绝内容用于人工智能训练，这些内容仍可能出现在其搜索结果中。

普雷洛瓦茨指出，Kagi一半以上的成本投入都用于网络爬虫及其他数据源。构建详尽的网络索引是搜索引擎的基础，它为用户提供详细的互联网内容视图。而对于那些旨在通过人工智能直接回答用户问题的公司来说，数据具有更重要的战略意义。

普雷洛瓦茨说：“生成式人工智能模型本身并不聪明，要提供高质量的输出，必须依赖广泛的搜索索引。”

搜索初创公司You.com的创始人理查德·索彻（Richard Socher）表示，robots.txt文件无处不在，为爬虫设定了访问指南，迫使初创公司做出复杂的决策。尽管这些文件没有法律约束力，但只要不涉及登录或用户验证，理论上可以抓取公开数据。他强调：“我们在进行爬取时，尽量不对网站造成过度负担。那些只允许谷歌抓取的robots.txt设置，本质上是在支持谷歌的搜索垄断。”

由前谷歌员工创立的Neeva搜索初创公司去年被Snowflake收购后，提出“爬虫中立”的倡议，以降低初创公司构建搜索索引的难度。鉴于法院已裁定谷歌垄断了在线搜索市场，美国司法部正在考虑采取补救措施，包括强制谷歌与竞争对手共享数据，甚至可能分拆该公司。

其中一项备受关注的提案建议，要求谷歌分享其Googlebot收集的数据，或开放其著名的搜索索引。欧盟的《数字市场法案》已经要求谷歌分享部分搜索查询数据。

对于iFixit的首席执行官维恩斯来说，谷歌在搜索领域的主导地位是其人工智能工作的核心优势，也是反垄断争议的焦点。他建议将谷歌搜索与其人工智能业务分开，以缓解利益冲突。

搜索引擎DuckDuckGo表示，随着技术的变革，谷歌的搜索索引在生成式人工智能时代变得更加重要，这也加剧了反垄断担忧。其公共事务高级副总裁卡米尔·巴兹巴兹（Kamyl Bazbaz）直言，搜索索引在当今技术变革中至关重要。

Talking Points Memo的出版人拉加佐认为，无论谷歌反垄断案件的结果如何，出版商都应掌握自己的命运，减少对任何单一技术平台的过度依赖，包括谷歌。他补充说：“我们的信念是，你必须与读者建立起真正的联系，这是打造能经得起不同时代考验的出版物的关键。”（小小）

来源: 网易科技报道