无需打开直接搜索微信:本司针对手游进行,选择我们的四大理由: ...
2025-08-12 0
前两周Manus出了一个新的AI研究功能Wide Research,让用户能够处理需要获取数百个项目信息的复杂、大规模任务,但要199美元一个月的Pro会员才能用,这价格让普通用户望而却步。
Manus创始人肖弘的解释是AI刚开始都很贵,愿意先制造超贵但是拓展人类能力边界的AI产品。据说原理是让100个Manus(虚拟机)同时工作,这样的话贵也是有原因的。Wide Research的具体技术原理公开较少,好在这种宽搜索(宽度优先搜索BFS)的AI研究并非Manus独有,字节团队的新研究或许能为我们解答一二。2025年8月12日,字节跳动Seed团队正式发布WideSearch并首次系统评估AI搜索助手在复杂信息收集任务中的真实能力,发现即使是最先进的AI系统成功率也仅有5%,远低于人类协作团队的近100%成功率。研究揭示了当前AI在任务规划、策略调整和证据处理方面的严重不足,为AI搜索技术的未来发展指明了方向。当AI遇上"大海捞针":什么是宽搜索任务
假设你是留学中介,接到一个任务:客户希望你调查全美所有常青藤大学以及澳洲八大的2025年土木工程硕士项目的最低GPA要求,并整理成一张详细表格,包括学校名称、具体要求、申请截止日期和申请费用等信息。这个任务听起来不算太难,对吧?但实际操作起来,你需要逐一访问每所大学的官网,在成千上万的网页中寻找准确信息,还要确保没有遗漏任何一所学校,更不能出现任何错误。如果你遗漏了哪怕一个数据点,或者填错了一个数字,整个调查就算失败。这就是字节跳动研究团队所说的"宽搜索"任务的本质。与传统的搜索不同,这类任务不是要找到一个特定答案,而是要像织网一样,把散落在互联网各个角落的相关信息统统收集起来,然后精确地整理成客户需要的格式。传统的搜索任务更像是寻找隐藏的宝藏,比如"爱因斯坦在1905年发表了哪篇重要论文?"这种问题有一个明确的答案,找到就算完成任务。而宽搜索任务则像是要完成一次全面的人口普查,你需要确保覆盖了所有目标对象,收集了所有必需信息,并且每一个细节都准确无误。研究团队发现,目前市面上的AI搜索助手在面对这类普查式任务时,表现得就像是经验不足的新手侦探。它们往往会遗漏重要线索,混淆不同案件的信息,或者在搜索遇到困难时就轻易放弃。更糟糕的是,它们常常会自以为已经完成了调查,实际上却漏掉了大量关键信息。空前的AI搜索能力大体检
为了彻底摸清AI搜索助手的真实水平,字节跳动团队设计了一个创新性的"考试系统"——WideSearch基准测试。这套测试包含了200个精心设计的复杂搜索任务,涵盖了从金融、教育、医疗到娱乐等18个不同领域。每个测试任务都经过了极其严格的筛选过程。研究团队首先从真实用户的搜索需求中收集了大量问题,然后由领域专家逐一筛选和改写,确保每个问题都既具有挑战性,又能在公开网络上找到准确答案。更重要的是,他们还要确保这些问题无法仅凭AI的内置知识就能回答,必须通过实际搜索才能完成。以泰勒·斯威夫特巡演演唱会信息收集为例,这个任务要求AI找出2010年1月1日到2025年5月1日期间泰勒·斯威夫特的每一场演唱会,包括具体日期、演唱会英文名称、举办国家、城市和场馆等信息,然后按时间顺序整理成完整的表格。这个任务的标准答案包含533条记录,任何一条记录的缺失或错误都会导致整个任务失败。
为了确保评估的公正性,研究团队还开发了一套复杂的自动评分系统。这套系统不仅能检查数据的准确性,还能处理不同表达方式的语义等价性。比如"北京"和"Beijing"会被认为是同一个答案,"2024年7月4日"和"July 4th, 2024"也会被正确识别为相同日期。令人震惊的测试结果:AI助手的滑铁卢
测试结果并不好。在参与测试的10多个最先进的AI系统中,包括Claude Sonnet 4、OpenAI o3、Gemini 2.5 Pro等明星产品,它们的整体成功率几乎都接近零。即使是表现最好的多智能体系统,成功率也仅仅达到5.1%。如果你给这些AI助手安排100个复杂的信息收集任务,它们最多只能完美完成其中5个。剩下的95个任务要么是信息不完整,要么是数据有错误,要么是格式不正确。研究团队还测试了人类的表现。他们邀请了一些志愿者独立完成同样的任务,结果发现即使是受过良好教育的人类,在单人作业的情况下,成功率也只有20%。不过,当多个人协作并进行交叉验证时,成功率可以接近100%。这个对比揭示了一个重要事实:这类宽搜索任务本身就极其困难,需要细致的规划、持续的专注和反复的验证。研究团队进一步分析发现,单智能体系统(就是一个AI独立工作)在所有测试中的表现都明显不如多智能体系统(多个AI协作工作)。最好的单智能体系统成功率只有4.5%,而采用"分工合作"策略的多智能体系统能够达到5.1%。虽然提升幅度不大,但这证明了团队协作在复杂任务中的重要性。AI搜索助手为什么会"掉链子"通过深入分析失败案例,研究团队发现AI搜索助手的问题主要集中在几个关键环节,就像是侦探工作中最容易出错的几个步骤。首先是规划能力的严重不足。当面对一个复杂的搜索任务时,优秀的侦探会制定详细的调查计划,把大任务分解成若干个小任务,然后逐一执行。但大多数AI助手在这方面表现得像是没有经验的新手。比如,当被要求找出所有常青藤大学的土木工程项目信息时,AI可能只会搜索"常青藤大学土木工程"这样的笼统关键词,而不会针对每所具体大学进行专门搜索。结果就是只能找到部分学校的部分信息,根本无法完成完整的调查。其次是缺乏反思和调整能力。在实际的侦探工作中,如果某条线索走不通,有经验的侦探会立即调整策略,尝试其他方法。但AI助手往往在第一次搜索失败后就会放弃,或者继续使用已经证明无效的搜索策略。研究团队观察到,即使是最先进的AI模型,在搜索返回"无结果"时,也很少会尝试换个角度或改变关键词重新搜索。第三个严重问题是对证据的错误处理。有时AI助手确实找到了相关信息,但却无法正确理解或使用这些信息。最典型的例子是,AI可能会把从休斯顿大学网站上找到的GPA要求错误地归属给哈佛大学,或者把过时的信息当作最新数据使用。最后,当搜索引擎无法返回所需信息时,一些AI助手会开始"编造"数据。比如,在查找2025年美国国家公园门票价格时,如果搜索不到相关信息,AI可能会凭空想象出一个"15美元"的价格,而不是诚实地承认信息暂时无法获取。这种"知识幻觉"现象在AI系统中并不罕见,但在需要高度准确性的信息收集任务中,这种错误是致命的。多人协作显威力:为什么团队比个人强研究团队的一个重要发现是,多智能体协作系统的表现明显优于单智能体系统,尽管提升幅度有限。这个发现让我们想起了现实世界中的团队协作优势。在多智能体系统中,一个"主管"AI负责将复杂任务分解成若干子任务,然后将这些子任务分配给不同的"专员"AI同时进行搜索。每个专员AI专注于自己的特定领域,最后由主管AI将所有结果整合成最终答案。这种工作方式就像是一个调查机构,其中有专门负责财务调查的专家、专门负责背景调查的专家、专门负责网络搜索的专家等等。这种分工协作的方式在理论上确实更有效率,也更不容易遗漏重要信息。研究结果也证实了这一点:在所有测试的AI模型中,采用多智能体框架的系统在各项指标上都有所提升。不过,即使是最好的多智能体系统,其成功率仍然远低于人类团队协作的水平。有趣的是,研究团队还尝试了"测试时扩展"实验,让同一个AI系统多次尝试同一个任务,然后从中选择最好的结果。结果显示,随着尝试次数的增加,AI在找到单个信息点方面的能力确实会提升,最高可以达到80%的准确率。但在完成整个任务方面,即使尝试了128次,成功率仍然只有不到20%。这说明问题的核心不在于找不到信息,而在于无法确保收集到的信息既完整又准确。真实世界的应用挑战这项研究揭示的问题远不止是学术层面的。在日常生活中,我们经常需要进行类似的大规模信息收集任务。比如,一个准备出国留学的学生可能需要收集所有目标大学的申请要求和截止日期;一个企业的市场研究人员可能需要分析所有竞争对手的产品价格和功能;一个投资者可能需要收集某个行业内所有上市公司的财务数据。这些任务的共同特点是:信息量巨大、要求准确性极高、容错率极低。任何一个细节的错误都可能导致严重后果。比如,错过一个申请截止日期可能意味着失去入学机会;搞错一个竞争对手的价格可能导致定价策略失误;漏掉一个重要的财务指标可能造成投资损失。目前的AI搜索助手在处理这类任务时显然还不够可靠。用户在使用这些工具时,必须保持高度的警惕性,对AI提供的信息进行仔细验证。更重要的是,对于真正关键的信息收集任务,人类的参与和监督仍然是不可或缺的。研究团队还发现,不同领域的任务难度差异很大。一些领域如"学术研究"和"交通运输"对所有AI系统来说都特别困难,可能是因为这些领域的信息更加专业化和分散化。而另一些领域如"医疗健康"和"法律",某些AI模型表现相对较好,这可能与它们在训练过程中接触过更多相关数据有关。人机协作的未来蓝图虽然当前AI搜索助手的表现令人失望,但研究团队并没有完全否定AI在信息搜集领域的潜力。相反,他们认为问题的关键在于如何更好地设计AI系统,使其能够胜任这类复杂任务。研究团队特别强调了人机协作的重要性。就像在现实的侦探工作中,最有效的方式往往是由经验丰富的老侦探带领一个团队,其中包括专门负责网络搜索的技术专家、专门负责实地调查的外勤人员、专门负责数据分析的分析师等等。在AI辅助的信息搜集中,理想的模式可能是由人类专家负责整体规划和质量控制,而AI助手负责执行具体的搜索和初步整理工作。这种协作模式的优势在于能够结合人类的战略思维和AI的执行效率。人类擅长制定复杂的搜索策略,能够根据情况变化灵活调整方案,也能够对搜索结果进行深度的逻辑分析和质量评估。而AI擅长快速浏览大量网页,提取结构化信息,进行重复性的数据处理工作。研究还显示,即使是当前不够完美的AI系统,在人类的适当指导下也能发挥重要作用。关键是要认识到AI的局限性,为其安排合适的任务,并建立有效的监督和验证机制。至顶AI实验室洞见
宽搜索任务对于现在的模型,好像还是太难了。这张图展示了不同模型宽搜索成功率的排名(在WideSearch基准下4次尝试的平均成功率)。目前最高成绩由多智能体形态下的openai o3拿下,但也只有5.1%,距离100%还差20倍;DeepSeek R1可能由于幻觉问题、工具调用能力等原因,在被测模型中排名倒数第一。对于普通用户来说,还是要谨慎对待AI完成的任务。需要进行复杂的信息收集任务时,不应该完全依赖单一的AI助手。最好的策略是使用多个不同的AI工具,然后对结果进行交叉验证。或者,用户在设计搜索任务时,可以尝试将复杂任务分解成多个简单子任务,然后逐一完成。这种方法不仅能够提高AI的成功率,也能让用户更好地控制整个过程的质量。当前的AI搜索助手在面对需要高度准确性和完整性的复杂任务时,更像是勤奋但经验不足的实习生,而不是可以完全依赖的专业助手。未来,如何让机器真正学会像人类专家一样进行复杂的信息搜集和分析,仍然是一个需要持续攻克的重大挑战。项目地址:https://widesearch-seed.github.io论文地址:https://arxiv.org/abs/2508.07999END本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。Q&AQ1:WideSearch测试到底是什么?与普通的搜索有什么不同? A:WideSearch是专门测试AI在复杂信息收集任务上能力的基准测试。与普通搜索找一个答案不同,它要求AI像做人口普查一样,收集大量分散的信息并整理成完整表格,任何遗漏或错误都算失败。比如要找出所有常青藤大学的申请要求,漏掉任何一所学校的任何一项信息都不行。Q2:WideSearch benchmark的实验结果如何?A:在实验中,超过10个先进智能体系统(包括单智能体、多智能体框架和商业系统)被评估,整体成功率极低,大多数接近0%,表现最好的多智能体系统仅达5.1%。人类测试者通过充分时间和交叉验证能达到接近100%成功率。失败源于智能体在规划、反思和证据利用上的根本缺陷,如查询分解不全和缺乏迭代调整。Q3:为什么WideSearch benchmark对AI发展重要?A:WideSearch benchmark突出当前搜索智能体在大规模信息收集中的关键不足,强调任务的核心挑战是确保信息全面性和准确性,而非认知难度。它揭示智能体在原子信息完整性上的瓶颈,推动未来研究如开发多智能体系统以模拟人类并行搜索和交叉验证。这有助于改进AI在真实场景的实用性,解放人类从繁琐工作中。
相关文章
您好:这款游戏是可以开挂的,软件加微信【添加图中微信】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人...
2025-08-12 0
您好:这款游戏是可以开挂的,软件加微信【添加图中微信】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人...
2025-08-12 0
亲,这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-08-12 0
亲,这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-08-12 0
发表评论