全球互联网架构巨头:Perplexity 的“幽灵爬虫”到处乱窜,后者回怼:乱咬人恶意炒作,不会分析就来请教 原创

发布于 2025-8-5 13:13
浏览
0收藏

编辑 | 云昭

出品 | 51CTO技术栈(微信号:blog51cto)

最近,全球最大的互联网架构提供商之一 Cloudflare 抛出了一颗“4A级炸弹”,直接炮轰当红 AI 初创公司 Perplexity。

在Cloudflare 公开的博客中指出,当 Perplexity 的爬虫遭遇阻断时,该公司将隐藏其爬虫身份,伪装成真实用户来突破封锁规则,继续抓取拒绝采集的网站内容。

Cloudflare 的工程师 Gabriel Corral、Vaibhav Singhal、Brian Mitchell 和 Reid Tatoris 在周一的一篇博客中表示:

“虽然 Perplexity 一开始使用其声明的用户代理进行抓取,但当遭遇网络封锁时,它们会隐藏爬虫身份,试图绕过网站的意愿。”

“我们持续看到 Perplexity 多次更改其用户代理和源 ASN(自治系统编号),以隐藏其抓取行为。同时,它们无视 robots.txt 文件的指令,有时甚至根本不请求该文件。”

虽然 Perplexity 回应称这是“误解”和“宣传噱头”,但事情远比声明听起来严峻得多……

Cloudflare 点名怒斥:Perplexity 的“隐身爬虫”到处乱窜

今天的几个小时前,Cloudflare 发布博客称,其监测到 AI 搜索公司 Perplexity 在遇到网站封锁后,采用“伪装身份”继续抓取内容。

全球互联网架构巨头:Perplexity 的“幽灵爬虫”到处乱窜,后者回怼:乱咬人恶意炒作,不会分析就来请教-AI.x社区图片

- 初始阶段 Perplexity 爬虫使用官方标识,比如:PerplexityBot、Perplexity-User,一旦被封锁,就切换至模拟 macOS 上 Chrome 浏览器的通用浏览器,并使用非官方 IP 和 ASN (自治系统编号)进行网络请求,企图绕过 robots.txt 和用户制定的 WAF 规则。

“这种行为模式覆盖了数万个域名,每天产生数百万次请求。”

Cloudflare 最终通过机器学习和网络信号的组合,才成功地识别出 Perplexity 幽灵爬虫的行为特征:

全球互联网架构巨头:Perplexity 的“幽灵爬虫”到处乱窜,后者回怼:乱咬人恶意炒作,不会分析就来请教-AI.x社区图片

 ClouCloudflare 为此还专门构建了测试域名(无索引、robots.txt 明令禁止所有爬虫),结果 Perplexity 依然能够提供这些隐藏页面的详细内容,说明其实践方式与声明明显冲突。

全球互联网架构巨头:Perplexity 的“幽灵爬虫”到处乱窜,后者回怼:乱咬人恶意炒作,不会分析就来请教-AI.x社区图片

Perplexity 回怼:恶意炒作截图里的bot根本不是我们的

PerpPerplexity 发言人 Jesse Dwyer 第一时间也对这种“炮轰行为”做出了回应: Cloudflare 的报告是一个“宣传噱头”!

同时,Dwyer 批评其声明中存在“很多误解”,存在严重的分析错误,并坚称文章中提到的截图“并未访问任何内容”,而 Cloudflare 指认的 bot “根本不是我们的”。

目前,这种神仙吵架的态势没有停息。前一刻,Cloudflare 已将 Perplexity 从已验证机器人名单中移除,并推出了阻止 Perplexity“隐形爬行”的方法。

回应:是Agent,还是爬虫bot?

Perplexity 今天还在X上发表了一篇有关AI时代,代理和爬虫bot区别的文章,小编认为非常有启发:如何重新思考AI时代的浏览行为和爬虫行为?这是一个继续澄清的问题。所以也给大家整理出来,希望能有所帮助。

全球互联网架构巨头:Perplexity 的“幽灵爬虫”到处乱窜,后者回怼:乱咬人恶意炒作,不会分析就来请教-AI.x社区图片

这篇回怼文章整理如下:

| 是 Agent 还是 Bot?理解开放网络上的 AI

随着互联网的发展,我们访问和交互信息的方式也在不断演变。在网络发展的早期,自动化 bot 扮演着一种简单且被广泛理解的角色:为搜索引擎建立索引、检查链接是否失效,或根据网站所有者设定的明确规则抓取数据。

但随着 AI 助手和以用户为驱动的 Agent 的兴起,“只是一个 bot”与“真正为人类服务”的界限变得越来越模糊。

| 数字助手的崛起

现代 AI 助手的工作方式,与传统的网页爬虫有着本质区别。当你向 Perplexity 提一个需要实时信息的问题——比如“那家新餐厅的最新评价是什么?”——AI 并不会从某个已存数据库中提取答案。而是会主动访问相关网站,阅读内容,并针对你的具体问题生成一份定制化摘要。

这与传统的网页爬虫完全不同——后者是系统性地访问数百万页面,构建起庞大的数据库,哪怕从未有人实际请求过这些信息。而用户驱动的 Agent 仅在真实用户发起具体请求时,才去获取相关内容,并立即用于回答问题。Perplexity 的用户驱动型 Agent 并不会保存这些信息,也不会用其训练模型。

| 为什么这种区别至关重要?

自动爬取与用户驱动式获取的区别不仅仅是技术问题,更关乎谁可以访问开放网络上的信息。

比如当谷歌搜索引擎进行索引爬取,这是一个过程;而当它因为你的查询请求而加载某个网页预览,这就是另一个完全不同的机制。谷歌的“用户触发式抓取”行为优先考虑的是你的体验,而非 robots.txt 文件的限制,因为这些请求是“代表用户”发起的。

AI 助手同理。当 Perplexity 抓取某网页时,是因为你提出了一个需要实时信息的问题。相关内容不会被储存,也不会用于训练模型,而是即时为你服务。

当像 Cloudflare 这样的公司把这种用户驱动的 AI 助手错误归类为恶意 bot,他们其实是在宣称——任何为用户服务的自动化工具都应被怀疑。这种观点如果成立,那么邮箱客户端、网页浏览器,甚至任何能自动处理请求的服务都可能被“守门人”视为非法。

而这场争议正揭示出:Cloudflare 当前的系统,根本无法区分一个合法的 AI 助手与真正的威胁。如果你都分不清一个有帮助的数字助手和一个恶意爬虫,那你大概也不应该决定什么才算“合法的网页流量”。

| 封锁伤害的是所有人

想象一个使用 AI 来研究健康问题、对比产品评价或获取多方新闻资讯的用户。如果他的助手因为被识别为“恶意 bot”而被封锁,那他就无法访问原本属于开放网络的有价值信息。

最终,这将导致一个“双轨互联网”——你能否访问信息,不再取决于你的需求,而是你的工具是否获得了某些基础设施控制方的“认证许可”。这直接削弱了用户的自主选择权,也威胁着创新服务在开放网络上的生存机会。

| 呼吁澄清:用户代理(User Agents)到底如何运作?

AI 助手的工作方式就像一个真人助手。当你问他们一个需要实时信息的问题,他们并不会提前知道答案,而是帮你去查找、完成你交给的任务。

在 Perplexity 及所有 agentic AI 平台上,这个过程是实时发生的,仅为满足你的请求而触发。获取到的信息会立刻用于回答问题,不会被存储到庞大的数据库中,也不会用于模型训练。

用户驱动的 Agent 只会在用户有特定请求时行动,并仅获取完成任务所需的内容。这是“用户代理”(User Agent)与“bot”之间最根本的区别。

| 正面回应 Cloudflare:一个关于专业能力的问题

Cloudflare 最近的一篇博文,几乎把现代 AI 助手的运作方式全都误解了。

除了错误地认为每天 2000 万到 2500 万条用户代理请求是爬虫行为,Cloudflare 还声称 Perplexity 在进行“隐形爬取”,使用隐藏 bot 和伪装手段绕过网站限制。但技术事实并非如此。

看起来 Cloudflare 实际上是把每天来自 BrowserBase(一个第三方云浏览器服务)的 300 万到 600 万条无关请求错误地归咎于 Perplexity。而 Perplexity 仅在极少数特定任务中使用该服务,每天调用不超过 4.5 万次。

由于 Cloudflare 故意遮掩其分析方法,且拒绝配合解释,我们只能归纳出两种可能的解释:

  1. Cloudflare 想搞一个聪明的公关噱头,而我们(作为他们的客户)刚好是个足够吸睛的名字;
  2. Cloudflare 把 BrowserBase 的自动浏览器流量错误归类为 Perplexity,这是一个基础级别的流量分析失败——而 Cloudflare 的核心业务,正是理解和分类网络流量。

无论哪种原因,都表明 Cloudflare 的分析存在严重错误。这些技术失误不仅令人尴尬,甚至足以让人质疑其在该领域的专业资格。如果你会错误归因上百万条请求,发布完全不符实际的技术图示,并彻底误解现代 AI 助手的运作方式,那你就已经失去了在这个领域中担任权威的资格。

这场争议也进一步暴露出,Cloudflare 的系统根本无法区分一个合法 AI 助手与真正的网络威胁。如果你连这个都搞不清楚,就不应该掌握判断什么才算“合法流量”的权力。

更令人哭笑不得的是,Cloudflare 还发布了一张所谓的“Perplexity 爬虫流程图”,但那图跟 Perplexity 的真实工作机制毫无关系。如果 Cloudflare 真想理解它看到的数据,了解我们的系统如何运行,或者理解上文中所讲的基础逻辑,他们其实可以像我们鼓励所有用户做的那样:

直接来问。

网友:至少引起了关注,Cloudflare前不久刚宕机

事实上,AI 爬取网站内容的事情已经让参与方,包括模型厂商、AI应用侧、网站方、创作者等之间,前前后后 battle了好几个回合。

只不过这次 Cloudflare 站出来向 Perplexity AI 开炮,连各种截图和路径分析都放出来,着实让网友们 更好地 Get 到了 AI 时代,我们聊天框里的 Chatbot 是如何精确从网站扒取内容的,有了更好地理解。

同样,Perplexity 的回应文章同样也非常精彩,指出了自动爬取与用户驱动式获取的区别。

正如一位推友所言,不管是不是炒作,但教育意义还是非常高的。

全球互联网架构巨头:Perplexity 的“幽灵爬虫”到处乱窜,后者回怼:乱咬人恶意炒作,不会分析就来请教-AI.x社区图片

不过,在事情没有尘埃落定之前,不少网友还是各自站队。比如内容创作者希望能在AI时代争取到更多的权益。而 Perplexity 的拥趸们则直接嘲笑 Cloudflare:几周前刚大规模宕机来着,现在连分析方式都被质疑了,听起来挺无能的。

全球互联网架构巨头:Perplexity 的“幽灵爬虫”到处乱窜,后者回怼:乱咬人恶意炒作,不会分析就来请教-AI.x社区图片

事情开始变得非常有趣了,而且这些网友的热情讨论,让小编觉得:即便在各种 AI 工具盛行的时刻,“互联网精神”的味道依旧浓郁。

本文转载自​​51CTO技术栈​​,作者:云昭

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐