金融界2025年8月15日消息,国家知识产权局信息显示,上海壁仞科技股份有限公司取得一项名为“相位检测仿真电路、方法及装置”的专利,授权公告号CN12...
2025-08-15 0
机器之心报道
机器之心编辑部
前沿 AI 模型真的能做到博士级推理吗?
前段时间,谷歌、OpenAI 的模型都在数学奥林匹克(IMO)水平测试中达到了金牌水准,这样的表现让人很容易联想到 LLM 是不是已经具备了解决博士级科研难题的推理能力?
然而,现实可能并不如想象中那么乐观。
AAI,一个专注于超智能和高级 AI 系统研究的机构,近期提出的一个新基准 FormulaOne,让一众大模型集体得零分,包括 GPT-5、o3 Pro、Gemini 2.5 Pro、Grok 4 等前沿模型。
FormulaOne 包含 220 个新颖的图结构动态规划问题,按难度分为三类,从中等难度直至科研级别。其中最高等级难度的题包括拓扑与几何、组合问题分析等。
测试题的具体示例如下:依次是浅层难度、深层难度、更深层难度。
尽管这些问题陈述起来通常很自然,但其解决方案却远非显而易见。这一大类问题的可解性由 Courcelle 提出的一个算法元定理所保证,该定理大致可以表述为:
「对于每个足够类似树的图,任何可用一种富有表现力的形式逻辑(一元二阶逻辑)定义的问题,都可以通过一个动态规划算法来解决,且其运行时间与图的阶数成线性关系。」
其关键在于使用一种称为树分解的结构,它将图的顶点组织成一系列重叠的集合,即「袋」,而这些「袋」本身则以树状结构排列。
然后,算法可以遍历这个由「袋」构成的树,并使用动态规划分步解决问题。这个过程涉及到设计一个「状态」,该「状态」总结了「袋」内部分解的所有必要信息,然后定义当顶点被引入、遗忘或当「袋」被合并时,该「状态」如何转换。
视频链接:https://mp.weixin.qq.com/s/cyOJ_Id606REj97nCXYqhg
问题陈述看似简单,但这背后实则掩盖了发现正确动态规划解法的非凡难度。这个过程遍布着微妙的组合与逻辑陷阱,要求(研究者)对问题的底层结构有深刻的理解。关于解决一个名为 Maximal-Cluster-Graph 的难题所需的十五个相互依赖的推理步骤,其详细的推演过程请参阅论文的附录。
这个工作在社交媒体上引发了很大关注,许多人表示应该让人类博士生也参与评估。
结果
在浅层难度上,顶尖模型的表现达到了 50%–70%,表明它们对相关问题类型已有一定熟悉度,换句话说,这些任务完全处于它们的训练分布之内。
在深层难度上,Grok 4、Gemini-Pro、o3-Pro、Opus-4 等模型最多只能解出 1/100 的题目;GPT-5 Pro 表现相对更好,但也只解出了 4/100。
在最深层难度上,所有模型的成功率均为 0%,集体崩溃。
AAI
AAI(AA-I Technologies,Double AI)是一家由以色列知名企业家、科学家 Amnon Shashua 于 2023 年 8 月在耶路撒冷创办的人工智能初创公司。
Shashua 是自动驾驶公司 Mobileye、AI21 Labs 和 OrCam 等多个知名项目的创始人,在自动驾驶、人工视觉和 AI 领域具有极高声誉。
AAI 的核心目标是推动「人工专家智能」(Artificial Expert Intelligence,AEI)的理论与应用,提出区别于传统窄域 AI 和 AGI 的新 AI 发展路径。这种 AEI 强调将领域知识与严密的科学推理能力相结合,旨在突破「只擅长特定任务」或「泛化无精度」的传统瓶颈,使 AI 可以像顶级人类专家一样,运用严谨推理来解决复杂科学或工程难题。
创立一年内,据报道公司已吸引了数千万美元投资,并在 AWS 2024 年生成式 AI 加速器项目中入选(获赠 100 万美元计算资源),加速自身 AI 基础设施建设。
相关文章
金融界2025年8月15日消息,国家知识产权局信息显示,上海壁仞科技股份有限公司取得一项名为“相位检测仿真电路、方法及装置”的专利,授权公告号CN12...
2025-08-15 0
亲,这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-08-15 0
作者:杜骏飞(南京大学新闻传播学院教授)来源:《青年记者》2025年第8期导 读:人机深度交流,意味着数字交往的“跨生命”。在科幻电影中,“人机恋”始...
2025-08-15 0
金融界2025年8月15日消息,国家知识产权局信息显示,北京网鼎云科科技有限公司取得一项名为“运用加密技术的支付数据安全防护系统”的专利,授权公告号C...
2025-08-15 0
诗画江南,让风景更美的,是妆点浙江的一簇簇新绿。作为“绿水青山就是金山银山”理念的发源地,20年来浙江践行绿色发展之路,处处发生着翻天覆地的变化。在这...
2025-08-15 0
作者 | 铅笔道 阿欣中星微技术股份有限公司(以下简称:中星微技术),一家从珠海实验室起步的硬科技企业,正用“星光”系列AI芯片重塑安防行业的边界。最...
2025-08-15 0
8月13日,陕西省科学技术厅发布《关于2024年度陕西省科学技术奖励的决定》。获奖项目包括最高科学技术奖(3项)、自然科学奖(50项 、技术发明奖(2...
2025-08-15 0
新学期的钟声即将敲响,对于广大学生党和追求高效生活的职场新人而言,一部称心如意的手机不仅是日常通讯的工具,更是学习、娱乐乃至生产力的核心。在琳琅满目的...
2025-08-15 0
发表评论