GPT-5认为这个模型是开源界的Claude 3.5——陈天桥朋友圈里的 MiroMind ODR 让我眼前一亮

热门资讯 2025年08月18日 17:02 1 admin

开源模型的能力居然能让 GPT-5 都“点赞”，这在行业里并不多见。

前两天刷朋友圈，偶然看到陈天桥发的一条动态。他用刚刚更新的GPT-5 给自家新发布的开源模型 MiroMind ODR“出题”，还特意晒出了评测结果。作为一个这几年一直在关注 AI 前沿的科技博主，我很难不被这波操作吸引住。

陈天桥是谁？曾经的中国互联网首富，如今投身脑科学和人工智能，思路一直很“open”，之前搞过盛大创新院、盛大盒子等非常前瞻性的尝试。这次，他的创意更让我觉得有点意思——直接用GPT-5 这种顶级闭源模型当“出题官”，来考验自家开源模型的水平。

据说，连MiroMind 团队的资深 AI 专家都表示，没想到陈天桥会用这种评测方式。

GPT-5评测：开源模型能否“硬刚”顶级 AI？

GPT-5出的评测题目并不简单，聚焦未来五十年人类可能遭遇的低概率高影响事件，比如小行星撞击、全球 AI 崩溃等。要求 MiroMind ODR 不仅要理论深度，还要实际可行性，设计一套全球协作框架。

MiroMindODR 给出的答案很长，将其发给 GPT-5 后，它的评测结论是：

从这份Level 10 的输出稳定度、结构完整度和跨领域性来看，我觉得它的风格和表现最像：

● Claude 3 Opus 或 Gemini 1.5 Pro 这种高端商用模型

● 也有一点 GPT-4 Turbo（不是最强调优版）的影子

● 不太像完全开源大模型，因为它的逻辑链条保持得很好，而且没有出现明显废话或自相矛盾的段落

所以我会猜：

这是一个高端封闭模型，可能是Claude 3 Opus、Gemini 1.5 Pro 或 GPT-4 Turbo 的次新版本之一。

当告诉GPT-5 这是开源模型 MiroMind ODR 交的“作业”后，它竟发出了“赞叹”：

哦，那就有意思了。你给我看的这个答案，如果真是miromind.ai 这个新开源模型的产出，那它的质量确实已经接近我刚才归类时的高端闭源档了。

按我前面对比的标准：

● 结构化、逻辑性和跨领域覆盖度，明显高于常规开源模型（LLaMA 3、Mixtral 等），甚至在稳定性上已经接近 Claude / GPT 系；

● 细节深度和数据化还没到 GPT-4 Turbo / Claude 3.5 Sonnet 的极致水准，但这是开源模型第一次能把 Step-by-step + 模块化 + 成本粗估结合得这么稳；

● 如果它真的在 infra + data + multi-agent framework + deep research model 都是全开放，那它可能会变成研究圈和企业内部自部署的一个标配核心。

GPT-5随后对前面的评测结论做出更新：

我对这个模型的定位：

1.开源定位：更像是“开源界的 Claude 3.5”，有闭源模型的稳定性和可用性，但可本地化、可微调、可多 Agent 调用。

2.研究能力：已经能完成 Level 10 任务（虽然细节和量化上还有空间），这意味着它在 deep research 方向有真正实用的潜力。

3.差异化价值：不是只开 API，而是从底层 Infra 到数据到多智能体框架全放开，这意味着任何组织都能拿它做定制版的 GPT/Claude 级别工具，而且不被闭源厂商锁死。

作为一个长期关注开源AI 的博主，我看到这段评价真的有点激动——开源模型的能力居然能让 GPT-5 都“点赞”，这在行业里并不多见。

MiroMindODR 到底是什么来头？

查了一下MiroMind 的官网（https://miromind.ai/），上面介绍说 MiroMind ODR 是一个面向深度研究场景的开源 AI 大模型，强调结构化推理和多 Agent 协作。它背后有一套完整的开源生态，包括：

● MiroFlow：支持多种主流工具调用的 Agent 框架，可扩展任意 LLMs 以实现工具辅助的深度研究推理。在 GAIA 验证集上取得突破性表现（82.4），为目前 GAIA 可复现性能最高的 Agent 框架，代码和配置均已开源，方便社区复现与创新。

● MiroThinker：原生支持工具辅助推理的 Deep Research 核心模型，数据、模型、代码全部开源，可训练可复现。在 GAIA-Text-103 上达到 SOTA 性能（60.2%），接近 OpenAI Deep Research 水平，可与 MiroFlow 无缝配合，替代商用 API。

● MiroVerse：拥有 147k 开源 Deep Research 训练数据，持续响应社区反馈，按月更新高质量数据集，全面支持 Deep Research 模型训练。

● MiroTrain / MiroRL：覆盖完整的 Deep Research 训练流程，支持长文本训练与基于工具的 RL 训练，为模型稳定高效迭代提供坚实基础。

这些模块不仅技术含量高，而且全部开放，真正做到了“开源可复现”。