金融界2025年8月8日消息,国家知识产权局信息显示,深圳领创光显科技有限公司申请一项名为“一种智能投影仪光源功率动态调整方法”的专利,公开号CN12...
2025-08-08 0
去年AI研究公司Epoch AI曾经做出预测,到2028年互联网上所有高质量的文本数据都将被使用完毕,AI业界将会撞上“数据墙”(data wall)。而急于获得更多数据来训练更强模型的AI厂商与待价而沽数据拥有者之间的博弈,更堪称是过去两年间互联网世界最有看点的斗争之一。
当斗争日趋激烈,互联网世界过去二十余年建立的一系列准则就被弃之如敝履,曾经大家熟悉的一切似乎都变成了过去式。日前,知名云服务提供商Cloudflare发布博客文章,指控AI搜索独角兽Perplexity在网站已明确标注禁止AI爬虫抓取的情况下仍进行抓取,并采用了多种不同的方式来绕过防火墙、以隐匿其抓取行为。
Cloudflare在博文中指出,相关网站已经在robots.txt中声明禁止Perplexity的爬虫抓取内容,但他们发现Perplexity并没有遵守这一规范。甚至在相关网站检测到Perplexity爬虫或其爬虫所属的ASN(自治系统号)时,选择返回HTTP 403,即服务器理解了本次请求、但拒绝执行该任务的方式来阻止Perplexity爬虫访问。
据悉,Perplexity的做法是更换用户代理(UA),而后者则代表用户进行网络活动的软件实体,它可以是任何能够发起网络请求的软件。用户代理的主要作用是向服务器发送请求,并接收、解析服务器返回的响应,可被视为是一张“网络身份证”。而Perplexity则会将自己的爬虫伪装成Chrome UA来躲避网站的拦截,即在网站面前冒充Chrome。
为了帮助自家客户免遭Perplexity爬虫的骚扰,Cloudflare宣布将后者从已验证的机器人列表中删除。对此,Perplexity公司发言人Jesse Dwyer直接否认了Cloudflare的说法,并宣称Cloudflare的行为就是在推销自己的服务,其博文中的截图显示没有内容被Perplexity爬虫访问,甚至提及的爬虫都不属于他们。
不得不说,Perplexity的公关水平相当在线。但作为一家知名的AI搜索独角兽,Perplexity在使用爬虫不合理抓取内容上,称得上是前科累累。早在去年春季,AWS就曾宣布对Perplexity展开调查,原因是后者被指控未经网站所有者同意,使用托管在AWS服务器上的爬虫程序抓取数据,且涉嫌违反robots.txt协议。
随后在今年6月,英国广播公司(BBC)也向Perplexity发出法律信件,以遏制Perplexity未经授权抓取其内容的行为。如果只是Cloudflare指责也就罢了,在云服务商AWS、新闻机构BBC都先后站出来的情况下,Perplexity的爬虫未经授权抓取内容几乎是板上钉钉的事情了。
面对这一不利局面,Perplexity的做法相当聪明,他们并没有选择澄清,而是攻击Cloudflare别有二心、并非急公好义。不久前Cloudflare宣布推出Pay Per Crawl平台,为内容创作者和AI厂商提供了一个数据交易的场所,同时他们还向用户提供阻止AI爬虫的机制。
不难看出,面对AI厂商无孔不入的爬虫,Cloudflare也想在这个乱局中分到一杯羹,来赚反AI爬虫的钱。作为一个向网站提供数据安全服务的公司,Cloudflare想要让更多网站使用他们的服务,如今还有什么是比渲染AI爬虫的威胁更有效呢?所以Perplexity就是抓住了这一点,使用了“共沉沦”的手段来减轻外界对自己的负面观感。
然而就算Cloudflare渲染AI爬虫威胁是为了自己的业务,显然要比Perplexity的行为好太多。要知道被Perplexity视若无睹的robots.txt是互联网世界的基石之一,它的唯一作用就是告诉网络爬虫,网站中的哪些内容是不对爬虫开放,哪些内容又能被抓取,可以理解为一种物权宣示。
robots.txt的存在就避免了一大批网站收到来自搜索引擎等UA的过多请求,可以节省带宽和服务器资源。更有趣的是,robots.txt其实并不具备任何强制力,它只是一个行业约定俗称的标准或者说是共识。有了这个共识,才有了大批网站愿意将线下的内容搬到线上,从而成就了互联网内容生态的繁荣。
当一家科技企业不在乎业界准则,或者说不要脸了,受害的一方居然做不到对等反制。这也就意味着“公地悲剧”,最终会导致互联网内容资源被过度使用,直至创作者不再愿意分享自己的内容。
所以Perplexity这种破坏共识的行为,显然是一个很不好的开端。
相关文章
金融界2025年8月8日消息,国家知识产权局信息显示,深圳领创光显科技有限公司申请一项名为“一种智能投影仪光源功率动态调整方法”的专利,公开号CN12...
2025-08-08 0
大家是不是经常被繁琐重复的工作任务搞得焦头烂额?今天给各位分享一款超厉害的开源自动化神器—n8n,绝对能成为你工作和生活中的得力助手,让自动化帮你“跑...
2025-08-08 0
2025世界人工智能大会(WAIC)暨人工智能全球治理高级别会议在上海世博中心隆重开幕,产业技术的领导者施耐德电气以“智联协同,共炫影响力”为主题,携...
2025-08-08 0
作者:李惠琳 编辑:陈晓平 图源:视觉中国菜鸟,正打出一片国际新天地。8月5日,菜鸟高级副总裁、跨境物流总经理熊伟透露,菜鸟的全球化业务,占比已过半。...
2025-08-08 0
8月7日夜,成都2025年第12届世界运动会(下称:成都世运会)在“天府之檐”区域开幕。当最后一道霞光隐入天际,世界各地的运动员踏上“蓉耀之路”入场,...
2025-08-08 0
2025年,随着三筒洗衣机爆火,用户也在不断提出新的需求——不仅要三滚筒,还要可以无需改装直接嵌入橱柜,最好能自带烘干。针对用户这样的需求,不少品牌纷...
2025-08-08 0
金融界2025年8月8日消息,国家知识产权局信息显示,麒麟软件有限公司申请一项名为“一种基于强化学习动态调节拥塞控制算法的方法及系统”的专利,公开号C...
2025-08-08 0
金融界2025年8月8日消息,国家知识产权局信息显示,腾讯科技(深圳)有限公司取得一项名为“一种网络延时检测方法、装置和计算机可读存储介质”的专利,授...
2025-08-08 0
发表评论