Cloudflare 指责 Perplexity AI 使用隐形爬虫来逃避网站屏蔽

Wendy3 小时前
摘要
互联网安全巨头 Cloudfare 表示,Perplexity 部署了“隐形爬虫”来逃避限制并从网站抓取内容 。
币币情报道:

据互联网基础设施提供商 Cloudflare 称,即使在这些网站明确屏蔽 Perplexity 后,其爬虫程序仍继续访问来自数万个网站的内容。该公司周一表示,已将 Perplexity 从其已验证的机器人程序中移除,并对其所谓的欺骗性抓取行为实施了屏蔽。

Perplexity 总部位于旧金山,由 Aravind Srinivas(首席执行官,前 OpenAI 研究员)、Denis Yarats(前 Facebook AI)、Johnny Ho 和 Andy Konwinski(Databricks 联合创始人)于 2022 年创立。该公司已获得包括 Elad Gil、Nat Friedman(前 GitHub 首席执行官)和 Nvidia 等投资者的融资,并且估值180亿美元上个月筹集了 1 亿美元。

最近的冲突源于 Cloudflare 的客户抱怨称,尽管 Perplexity 已实施 robots.txt 指令和特定的防火墙规则来阻止这家人工智能公司宣称的爬虫程序,但 Perplexity 仍在抓取他们的网站数据。Cloudflare 工程师 Gabriel Corral、Vaibhav Singhal、Brian Mitchell 和 Reid Tatoris 在测试中证实,“Perplexity 的爬虫程序确实在特定页面上被阻止了。”

为了测试 Perplexity 的行为,Cloudflare 创建了多个新购买的域名,并设置了 robots.txt 文件,禁止所有自动访问。“我们进行了一项实验,向 Perplexity AI 询问了有关这些域名的问题,发现 Perplexity 仍然会提供有关每个受限制域名上托管的具体内容的详细信息。”

接下来发生的事情让他们大吃一惊。Perplexity 似乎并没有遵守封锁规定,反而改变了策略。“我们观察到,Perplexity 不仅使用了他们声明的用户代理,还在 macOS 上使用了一款通用浏览器,试图在他们声明的爬虫程序被屏蔽时模拟 Google Chrome。”工程师们说道。写道.

 Cloudflare 指责 Perplexity AI 使用隐形爬虫来逃避网站屏蔽
来源:Cloudflare

这些隐形爬虫采用了复杂的规避技术。“这个未声明的爬虫使用了多个未列入 Perplexity 官方 IP 范围的 IP,并会根据 robots.txt 的限制性策略和 Cloudflare 的屏蔽规则,轮流使用这些 IP。除了轮流使用 IP 之外,我们还观察到来自不同 ASN 的请求,试图进一步规避网站屏蔽。”

据 Cloudflare 称,Perplexity 的“已声明”爬虫(那些易于识别的爬虫)每天生成 2000 万到 2500 万个请求,而那些未声明的隐形爬虫(那些依靠不正当手段隐藏其目的的爬虫)每天又生成 300 万到 600 万个请求。“我们观察到这种活动涉及数万个域名,每天生成数百万个请求。”

该公司没有回应解密的置评请求。一位发言人驳斥了这些指控TechCrunch这只不过是 Cloudflare 的“推销”手段而已。

Cloudflare 首席执行官马修·普林斯 (Matthew Prince) 一直直言不讳,认为人工智能公司对网络内容的提取是不可持续的。“随着人们越来越依赖人工智能摘要,搜索流量的推荐量急剧下降。”今年 7 月,他披露了一些令人震惊的比例:谷歌每抓取 18 个页面,就会带来 1 名访客,而人工智能公司的比例则要高得多。OpenAI 的比例从六个月前的 250 比 1 下降到今天的 1500 比 1。Anthropic 的数字更为极端,同期的比例从 6000 比 1 跃升至 60000 比 1。

 Cloudflare 指责 Perplexity AI 使用隐形爬虫来逃避网站屏蔽
来源:Cloudflare

这促使 Cloudflare 推出了所谓的“内容独立日”,默认阻止所有新域名的 AI 爬虫,成为事实上的保护内容创作者免受讨厌的 AI 爬虫威胁的义务警员。

作为 解密此前报道自去年秋季以来,已有超过一百万个网站选择屏蔽,其中包括美联社, 时间, 《大西洋月刊》, BuzzFeed、Reddit、Quora 和环球音乐集团也加入了这一运动。

Cloudflare 表示:“我们明确要求爬虫程序透明、服务于明确的目的、执行特定的活动,最重要的是,遵循网站指令和偏好。” 该公司将 Perplexity 的行为与 OpenAI 的行为进行了对比,称 OpenAI 正确遵守 robots.txt 文件,并在被阻止时停止爬取。

Cloudflare 的应对措施包括立即采取技术措施和长期计划。该公司已将隐形爬虫的签名匹配功能部署到其托管规则中,所有客户(包括免费用户)均可使用。此外,Cloudflare 还在开发“AI 迷宫”等工具,该工具可将不合规的机器人困在虚假内容的迷宫中;此外,Cloudflare 还开发了一个“按次付费”市场,允许出版商向 AI 公司收取访问其内容的费用。

免责声明:

1.资讯内容不构成投资建议,投资者应独立决策并自行承担风险

2.本文版权归属原作所有,仅代表作者本人观点,不代币币情的观点或立场