首页 抖音快讯文章正文

官网飙涨36亿!K2究竟能做哪些,有哪些坑?实战总结来了

抖音快讯 2025年07月16日 04:01 1 admin

上周末的晚上,月之暗面发布了自己的新模型:K2。

据网友公开的一张截图显示,发布当天,Kimi 官网的访问量从百千万量级直接暴涨到了36亿。

官网飙涨36亿!K2究竟能做哪些,有哪些坑?实战总结来了

流量暴涨这么猛,当然是有实力在的。

趁着周末,小编仔细读了Kimi官方账号的报道。此外,也做几个平时会用的几个实战测试。

今天趁着刚测完的热乎劲,谈一谈感受。

Kimi 正在夺回荣耀

首先,这款新型号的模型不少基准方面的表现可以说都超出了小编的预期。

在业界目前卷的最厉害的三个板块:自主编程、工具调用和数学推理,K2可以说迈出了一大步。

官网飙涨36亿!K2究竟能做哪些,有哪些坑?实战总结来了

在一众主流大模型Claude Opus、Deepseek V3、Qwen 23B、OpenAI GPT4.1的对比中,除了SWE-bench 测试取得了两个第二的成绩,以及在一个专门用于评估智能体能力的开源测试基准Ace中输给了GPT4.1以外,K2在其他五项测试中都取得了第一的成绩。

这里还是想强调的是,数学推理一直是Kimi推理模型的优势,半年过去,Kimi也开始在自主编程、工具调用的方向夺回荣耀。

重要的是,Kimi 上线即开源了这份盛夏的新作品。

让人上头的三个关键特性

接下来,说说让自己的一些“上头”的一些点。

第一个点,万亿参数的模型。相信大家都注意到了,虽然万亿参数模型在我们的概念中已经不新鲜,但对于六小虎而言,万亿参数模型,Kimi是第一家。

同时,虽然模型体量大了,但每次前向推理只激活其中32B,这样K2的思维就像个大智慧者,但又不会造成你的token“云账单”爆表。

第二点,K2有点我愿意称之为“原生智能体”能力。

我不再需要自定义一个编排层,不再需要做一个基于规则的 planner。只需提供工具 schema,提出个目标,K2就会自己调用工具。

一位网友的真实案例:用一个模拟的 “file-edit” 工具测试让它重构 Swift 包,它不仅写了修改,还跑了测试,而且在测试失败后,它还能自动修复再试!

当然,小编还做了一个有趣的“张艺谋电影风格”的工具调用的视频脚本的测试,稍后给大家看下。

第三点,这一点容易被大家忽略,即这次K2在预训练阶段使用的MuonClip优化器。这一点为什么重要?

因为万亿参数规模下,训练的稳定性和token的使用效率,关系着生产环境下的用户体验,而这一“查询-键重缩放”技巧,能够将以往容易出现的注意力logits失控的问题,有效缓解甚至遏制住。

据官网介绍,Kimi团队在超15万亿tokens的预训练中依旧表现稳定,在网友实际测试中,也确实有效。

此外,在人类高质量数据成为瓶颈的背景下,有效提高Token利用效率,也就意味着找到了新的Scaling空间。

实测下来,有点意外

在展示小编自己的实测前,小编发现,全球网友对于K2模型的新印象出奇地认可。

据网友扒来的一张截图显示,K2在 EQ-Bench3 和创意写作中名列SOTA。

而一位网友的帖子也让小编重新了解了一种大模型的对话用法。

这位网友表示,“这是迄今为止我用过的最好的创意写作模型。我建议在文本补全模式下使用它。”

官网飙涨36亿!K2究竟能做哪些,有哪些坑?实战总结来了

还有一位网友,对于K2的创造力表示惊讶。

官网飙涨36亿!K2究竟能做哪些,有哪些坑?实战总结来了

这位甚至认为:K2在补全模式下,编码/常规任务的表现甚至胜过了Sonnet和Gemini 2.5 Pro。

眼见未必为实。好,话不多说,来看看小编的实测情况。

第一个,为了测试K2工具调用的能力,小编设计了一个“中美网红文化交流项目执行”的测试。

注意: 要完成这个任务,涉及到:动态调用多步工具 + 概念合成 + Agent 结果反馈链路等许多复杂的推理工作。

题目如下:

复制

背景: 中国此前推出“中美网红互访活动”工具定义:[  {"name": "select_influencers", "description": "根据条件筛选网红", "parameters":{"min_followers":"int","platform":"string"}},  {"name": "plan_trip", "description": "生成行程安排", "parameters":{"cities":"list","days":"int"}},  {"name": "generate_promo_script", "description": "生成宣传文案", "parameters":{"trip_plan_id":"string"}}]任务:帮助平台:1.选出符合标准的 5 名美国网红;2.安排行程覆盖北京、上海、杭州 7 日游;3.生成一段 Instagram 宣传视频解说脚本。1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.

K2给出的答案非常令人满意:

它不仅真的从从Instagram、Trip等网站上搜集了五名网红、挖掘了宣传视频解说脚本的做法,还按照任务中定义的工具格式,进行了严格的执行,而且反馈链路也非常复杂,竟然没有翻车,这一点非常惊艳。

官网飙涨36亿!K2究竟能做哪些,有哪些坑?实战总结来了

官网飙涨36亿!K2究竟能做哪些,有哪些坑?实战总结来了

官网飙涨36亿!K2究竟能做哪些,有哪些坑?实战总结来了


第二个例子,是小编针对「MuonClip 稳定注意力机制」设计的。这里我从网上找来了金庸老先生的《天龙八部》中最精彩的一段:“燕云十八飞骑 奔腾如虎风烟举”。

这段是全书三主角对战群雄顶尖势力的高光时刻,金老先生用了超过8100多字的笔墨用来描述这样的大场面。

所以,K2 在这么长的文本理解中注意力究竟如何呢?

小编问道:

帮我找出第一次出现慕容复的段落,并分析其在全文中的作用。

官网飙涨36亿!K2究竟能做哪些,有哪些坑?实战总结来了

K2顺利地找出来了慕容复首次出现的位置,并对金老先生这样安排的原因做出了解析:推动剧情从围困走向车轮战、深化慕容复野心与虚伪的性格、串联多线冲突。

官网飙涨36亿!K2究竟能做哪些,有哪些坑?实战总结来了

非常精准。

第三个测试,是一个Agent的模拟测试。既然网上都说K2创意满满,小编这次索性让K2模拟“张艺谋智能导演助理”。

问题如下:

复制

工具定义:json[  {"name": "generate_storyboard", "description": "生成分镜脚本", "parameters":{"scene":"string","style":"string","length":"int"}},  {"name": "render_preview", "description": "生成场景预览图", "parameters":{"storyboard_id":"string"}}]任务:以张艺谋导演近期常融入传统文化的风格为基础(热点参考他新片传闻),请设计开场分镜,描述“敦煌 + 赛博朋克风格”,并调用上述工具生成脚本与预览。1.2.3.4.5.6.7.8.9.10.

这个问题的难度小编认为还是极高的:

以张艺谋导演近期常融入传统文化的风格为基础(热点参考他新片传闻),请设计开场分镜,描述“敦煌 + 赛博朋克风格”,并调用上述工具生成脚本与预览。

这次,小编让ChatGPT和K2来了一次对决。

先看K2和ChatGPT给到我的分镜脚本:

K2:

复制

{  "name": "generate_storyboard",  "arguments": {    "scene": "黎明时分的敦煌石窟,千年壁画在霓虹电路侵蚀下苏醒。赛博飞天机械臂托举全息曼陀罗,传统朱砂颜料与全息投影交织,铜制机械骆驼从黄沙中升起。张艺谋式对称构图,金黄大漠与幽蓝电路光形成强烈对比,红纱蒙面舞者手持光束琵琶,在数字飞沙中旋转。",    "style": "张艺谋式大色块美学,敦煌壁画朱砂+群青传统配色融合赛博霓虹,极致对称构图,长镜头运动",    "length": 8  }}1.2.3.4.5.6.7.8.

ChatGPT:

复制

{  "name": "generate_storyboard",  "parameters": {    "scene": "开场镜头描述:一场沙暴之中,镜头穿越风沙,莫高窟巨大的佛像隐约显现。一尊敦煌飞天从壁画中剥离,变为半透明的全息投影,缓缓升空,裙摆如数据流般飘散。画面渐转,一座布满LED和霓虹刻文的高塔矗立在沙漠中,远方飞车穿梭、机械驼队行进。镜头拉近,出现一位机械僧人,面容古朴却嵌有微光线路,他凝视镜头,喃喃低语:‘归来者,皆有前世因缘。’",    "style": "敦煌+赛博朋克,融合张艺谋式写意与色彩美学",    "length": 6  }}1.2.3.4.5.6.7.8.

遗憾地是,这两款模型出的了脚本,但不能出视频,所以小编为了让大家看出成片,索性让Vidu Q1上场了。

可以说,两者的意图捕捉能力、拆解能力是非常棒的。只是,不知道张大导演怎么看?

遇到的几个坑

这里,K2 也有一些踩坑,分享给大家。

一、输出太长会截断(有时,非经常)

它有时候会在输出 8000+ tokens 后“卡壳”,我不得不给 prompt 加上 “请将回答限制在 3000 tokens 内”。

二、工具名冲突会导致混乱

一位网友表示,自己曾注册了两个名为 open_file 的工具,虽然来自不同命名空间,但 K2 有时会乱选,直到其手动改名才恢复正常。

三、内存占用依旧高

虽然只激活320亿参数,但还是建议至少使用 48GB 显存,或者多 GPU 分布。vLLM 的 CPU offloading 虽然能跑,但速度……慢得像蜗牛。

K2 最适合的使用场景

很明显,这次月之暗面的新模型,开源,大参数规模、快速、稳定,同时剑指 Agentic Agent!

自主调用工具的能力,Kimi K2 可以说名副其实。那么结合Kimi的在数学代码任务上的优秀表现,建议大家不妨从以下几个场景上手——

  • Agent 化 DevOps: 自动修补测试失败的持续集成 bot
  • 数据重分析: K2 连接数据仓库,Jupyter 里一边提问一边画图,还能导出 PDF 报告
  • 垂直行业助理: 在企业语料上微调 base 模型,接入公司工具,构建专属 AI 助理

如果你只是想闲聊或草拟点内容,更小的开源模型延迟会更低。但如果你的 roadmap 包括“推理 + 执行”,选 K2 应该不会让你失望。

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动