官网飙涨36亿！K2究竟能做哪些，有哪些坑？实战总结来了

抖音快讯 2025年07月16日 04:01 1 admin

上周末的晚上，月之暗面发布了自己的新模型：K2。

据网友公开的一张截图显示，发布当天，Kimi 官网的访问量从百千万量级直接暴涨到了36亿。

流量暴涨这么猛，当然是有实力在的。

趁着周末，小编仔细读了Kimi官方账号的报道。此外，也做几个平时会用的几个实战测试。

今天趁着刚测完的热乎劲，谈一谈感受。

Kimi 正在夺回荣耀

首先，这款新型号的模型不少基准方面的表现可以说都超出了小编的预期。

在业界目前卷的最厉害的三个板块：自主编程、工具调用和数学推理，K2可以说迈出了一大步。

在一众主流大模型Claude Opus、Deepseek V3、Qwen 23B、OpenAI GPT4.1的对比中，除了SWE-bench 测试取得了两个第二的成绩，以及在一个专门用于评估智能体能力的开源测试基准Ace中输给了GPT4.1以外，K2在其他五项测试中都取得了第一的成绩。

这里还是想强调的是，数学推理一直是Kimi推理模型的优势，半年过去，Kimi也开始在自主编程、工具调用的方向夺回荣耀。

重要的是，Kimi 上线即开源了这份盛夏的新作品。

让人上头的三个关键特性

接下来，说说让自己的一些“上头”的一些点。

第一个点，万亿参数的模型。相信大家都注意到了，虽然万亿参数模型在我们的概念中已经不新鲜，但对于六小虎而言，万亿参数模型，Kimi是第一家。

同时，虽然模型体量大了，但每次前向推理只激活其中32B，这样K2的思维就像个大智慧者，但又不会造成你的token“云账单”爆表。

第二点，K2有点我愿意称之为“原生智能体”能力。

我不再需要自定义一个编排层，不再需要做一个基于规则的 planner。只需提供工具 schema，提出个目标，K2就会自己调用工具。

一位网友的真实案例：用一个模拟的 “file-edit” 工具测试让它重构 Swift 包，它不仅写了修改，还跑了测试，而且在测试失败后，它还能自动修复再试！

当然，小编还做了一个有趣的“张艺谋电影风格”的工具调用的视频脚本的测试，稍后给大家看下。

第三点，这一点容易被大家忽略，即这次K2在预训练阶段使用的MuonClip优化器。这一点为什么重要？

因为万亿参数规模下，训练的稳定性和token的使用效率，关系着生产环境下的用户体验，而这一“查询-键重缩放”技巧，能够将以往容易出现的注意力logits失控的问题，有效缓解甚至遏制住。

据官网介绍，Kimi团队在超15万亿tokens的预训练中依旧表现稳定，在网友实际测试中，也确实有效。

此外，在人类高质量数据成为瓶颈的背景下，有效提高Token利用效率，也就意味着找到了新的Scaling空间。

实测下来，有点意外

在展示小编自己的实测前，小编发现，全球网友对于K2模型的新印象出奇地认可。

据网友扒来的一张截图显示，K2在 EQ-Bench3 和创意写作中名列SOTA。

而一位网友的帖子也让小编重新了解了一种大模型的对话用法。

这位网友表示，“这是迄今为止我用过的最好的创意写作模型。我建议在文本补全模式下使用它。”

还有一位网友，对于K2的创造力表示惊讶。

这位甚至认为：K2在补全模式下，编码/常规任务的表现甚至胜过了Sonnet和Gemini 2.5 Pro。

眼见未必为实。好，话不多说，来看看小编的实测情况。

第一个，为了测试K2工具调用的能力，小编设计了一个“中美网红文化交流项目执行”的测试。

注意：要完成这个任务，涉及到：动态调用多步工具 + 概念合成 + Agent 结果反馈链路等许多复杂的推理工作。

题目如下：

复制

背景： 中国此前推出“中美网红互访活动”工具定义：[  {"name": "select_influencers", "description": "根据条件筛选网红", "parameters":{"min_followers":"int","platform":"string"}},  {"name": "plan_trip", "description": "生成行程安排", "parameters":{"cities":"list","days":"int"}},  {"name": "generate_promo_script", "description": "生成宣传文案", "parameters":{"trip_plan_id":"string"}}]任务：帮助平台：1.选出符合标准的 5 名美国网红；2.安排行程覆盖北京、上海、杭州 7 日游；3.生成一段 Instagram 宣传视频解说脚本。1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.

K2给出的答案非常令人满意：

它不仅真的从从Instagram、Trip等网站上搜集了五名网红、挖掘了宣传视频解说脚本的做法，还按照任务中定义的工具格式，进行了严格的执行，而且反馈链路也非常复杂，竟然没有翻车，这一点非常惊艳。

第二个例子，是小编针对「MuonClip 稳定注意力机制」设计的。这里我从网上找来了金庸老先生的《天龙八部》中最精彩的一段：“燕云十八飞骑　奔腾如虎风烟举”。

这段是全书三主角对战群雄顶尖势力的高光时刻，金老先生用了超过8100多字的笔墨用来描述这样的大场面。

所以，K2 在这么长的文本理解中注意力究竟如何呢？

小编问道：

帮我找出第一次出现慕容复的段落，并分析其在全文中的作用。

K2顺利地找出来了慕容复首次出现的位置，并对金老先生这样安排的原因做出了解析：推动剧情从围困走向车轮战、深化慕容复野心与虚伪的性格、串联多线冲突。

非常精准。

第三个测试，是一个Agent的模拟测试。既然网上都说K2创意满满，小编这次索性让K2模拟“张艺谋智能导演助理”。

问题如下：

复制

工具定义：json[  {"name": "generate_storyboard", "description": "生成分镜脚本", "parameters":{"scene":"string","style":"string","length":"int"}},  {"name": "render_preview", "description": "生成场景预览图", "parameters":{"storyboard_id":"string"}}]任务：以张艺谋导演近期常融入传统文化的风格为基础（热点参考他新片传闻），请设计开场分镜，描述“敦煌 + 赛博朋克风格”，并调用上述工具生成脚本与预览。1.2.3.4.5.6.7.8.9.10.

这个问题的难度小编认为还是极高的：

以张艺谋导演近期常融入传统文化的风格为基础（热点参考他新片传闻），请设计开场分镜，描述“敦煌 + 赛博朋克风格”，并调用上述工具生成脚本与预览。

这次，小编让ChatGPT和K2来了一次对决。

先看K2和ChatGPT给到我的分镜脚本：

K2：

复制

{  "name": "generate_storyboard",  "arguments": {    "scene": "黎明时分的敦煌石窟，千年壁画在霓虹电路侵蚀下苏醒。赛博飞天机械臂托举全息曼陀罗，传统朱砂颜料与全息投影交织，铜制机械骆驼从黄沙中升起。张艺谋式对称构图，金黄大漠与幽蓝电路光形成强烈对比，红纱蒙面舞者手持光束琵琶，在数字飞沙中旋转。",    "style": "张艺谋式大色块美学，敦煌壁画朱砂+群青传统配色融合赛博霓虹，极致对称构图，长镜头运动",    "length": 8  }}1.2.3.4.5.6.7.8.

ChatGPT:

复制

{  "name": "generate_storyboard",  "parameters": {    "scene": "开场镜头描述：一场沙暴之中，镜头穿越风沙，莫高窟巨大的佛像隐约显现。一尊敦煌飞天从壁画中剥离，变为半透明的全息投影，缓缓升空，裙摆如数据流般飘散。画面渐转，一座布满LED和霓虹刻文的高塔矗立在沙漠中，远方飞车穿梭、机械驼队行进。镜头拉近，出现一位机械僧人，面容古朴却嵌有微光线路，他凝视镜头，喃喃低语：‘归来者，皆有前世因缘。’",    "style": "敦煌+赛博朋克，融合张艺谋式写意与色彩美学",    "length": 6  }}1.2.3.4.5.6.7.8.

遗憾地是，这两款模型出的了脚本，但不能出视频，所以小编为了让大家看出成片，索性让Vidu Q1上场了。

可以说，两者的意图捕捉能力、拆解能力是非常棒的。只是，不知道张大导演怎么看？