Kimi首个万亿参数模型开源！免费可用，超强Agent推理，附实测体验

抖音快讯 2025年07月12日 02:30 1 admin

智东西

作者 | 陈骏达

编辑 | 心缘

智东西7月12日报道，昨夜，国内大模型独角兽月之暗面发布并开源了其最新一代MoE架构基础模型Kimi K2，总参数量达到1万亿（1T），激活参数为32B。Kimi K2已在Kimi Web端和App端中可用。

Kimi K2是月之暗面首款开源发布的旗舰模型，在SWE Bench Verified（编程）、Tau2（智能体）、AceBench（工具调用）这三项基准测试中，这一模型取得开源模型中的SOTA成绩。

在自主编程（Agentic Coding）、工具调用（Tool Use）和数学推理（Math & Reasoning）这三个能力维度上，Kimi K2的表现超过了DeepSeek-V3-0324、Qwen-235B-A22B等模型，但在部分基准测试中略逊于Claude 4 Opus、OpenAI GPT-4.1等模型。

Kimi K2在预训练阶段使用了“MuonClip”优化器实现万亿参数模型的训练。这一优化器能提高Token利用效率，缓解高质量人类数据的短缺问题。月之暗面还应用了大规模Agentic Tool Use数据合成和引入自我评价机制的通用强化学习等技术。

Kimi K2 API服务也同步上线。Kimi K2 API支持最长128K上下文，计费方案为每百万输入tokens/4元，每百万输出tokens/16元，输入输出价格均为DeepSeek V3的2倍。

Kimi K2系列中的两个模型版本现已开源，包括未经过指令微调的基础预训练模型Kimi-K2-Base和通用指令微调版本Kimi-K2-Instruct（非思考模型）。前者适合科研与自定义场景，后者则可用于大多数问答与Agent任务。

Kimi K2现已上线无问芯穹Infini-AI异构云平台（cloud.infini-ai.com/genstudio/），用户能以与官方API同样的价格调用Kimi K2。

开源链接：

https://huggingface.co/moonshotai/Kimi-K2-Instruct

体验链接：

https://www.kimi.com/

一、编程能力迎提升，实测效果差强人意

根据月之暗面博客文章，在前端开发任务中，Kimi K2能生成有设计感与视觉表现力的代码，支持粒子系统、可视化和3D场景等表现形式。官方Demo中，Kimi K2开发了一个支持昼夜循环的山川峡谷3D景观：

还生成了粒子特效银河：

为验证上述能力，智东西向Kimi K2发送了如下提示词：

最终，Kimi K2交付的网页渲染效果并未如官方Demo中那般逼真，交互性和功能丰富度也略逊一筹。

在难度较低的个人网站开发任务上，Kimi K2展现出一定规划能力。在未收到明确指示的情况下，Kimi K2主动梳理了网站的目录结构，打造出的网站可扩展性更好。

就智东西进行的个人网站开发测试而言，Kimi K2相较Kimi K1.5的UI审美水平进步有限。

上方为Kimi K2生成结果，下方为Kimi K1.5生成结果

同样的任务交由DeepSeek-V3-0324进行处理，最终生成的结果如下：

二、Agent工具调用能力增强，扩展风格化写作能力

月之暗面称，Kimi K2现具备复杂指令解析能力，可将需求自动拆解为一系列格式规范、可直接执行的ToolCall结构。

开发者可将Kimi K2接入owl、Cline、RooCode等Agent/Coding框架，完成复杂任务或自动化编码。

Agent能力已可通过API使用，更多工具能力即将在Kimi上线。在月之暗面内部测试环境中的实际演示里，Kimi K2展现出一定体验Agentic能力。

比如，将13万行的原始数据丢给Kimi K2，它可以帮用户分析远程办公比例对薪资的影响，分析显著差异，自动生成统计图表与回归模型解读，并用统一色调做出小提琴图（violin plot) 、箱线图（box plot）、散点图（scatter plot）等专业图表，整理成报告。

再比如，如果用户是Coldplay粉丝，Kimi K2可以帮忙制定今年的追星计划，完成演唱会所在城市的机酒与旅游规划，并且生成日历，再用html概括完整行程规划并发送邮件。

Kimi K2还拥有了更强的风格化写作能力。官方提供的Demo中，Kimi K2模仿了苹果广告文案风格：

此外，Kimi K2在通用知识推理、数学、规划等任务中的表现亦有提升，比数字大小的题目已经难不住Kimi K2了。

结语：探索新型优化器，未来将新增思考与视觉理解

根据月之暗面博客文章，Kimi K2用MuonClip优化器支撑万亿参数模型训练，提升token利用效率。结合大规模Agentic数据合成与通用强化学习，这一模型的通用智能能力获得提升。

为了缓解大规模训练中的attention logits偏大问题，月之暗面抛弃了传统的Adam优化器，提出MuonClip优化器，并将其扩展到万亿参数规模，提升了训练稳定性和token使用效率。Kimi K2完成了15.5T token的训练，全程无loss spike。

月之暗面还构建了可大规模生成多轮工具使用场景的合成pipeline，其大规模Agentic Tool Use数据合成可覆盖数百领域、数千工具，样本由LLM评估筛选后用于训练。

Kimi K2在可验证任务上（代码、数学）使用了强化学习，还通过引入自我评价机制（self-judging），解决了不可验证任务的奖励稀缺问题，实现通用强化学习，提升泛化任务表现。

目前，Kimi K2尚不支持视觉理解和思考能力，月之暗面称这些能力将在未来陆续加入。

2025公认“接近完美”的3款手机，7月换新重点考虑，用六年不过时

已确认！江西将新增一机场

发表评论

Kimi首个万亿参数模型开源！免费可用，超强Agent推理，附实测体验

一、编程能力迎提升，实测效果差强人意

二、Agent工具调用能力增强，扩展风格化写作能力

结语：探索新型优化器，未来将新增思考与视觉理解

2025公认“接近完美”的3款手机，7月换新重点考虑，用六年不过时

已确认！江西将新增一机场

最新评论

最新留言

标签列表