文/低空经济探索者今日,小鹏汽车生态企业小鹏汇天宣布完成2.5亿美元B轮融资,累计融资总额突破7.5亿美元(约53.75亿元人民币)。这笔巨额资本如同...
2025-07-16 0
上周末的晚上,月之暗面发布了自己的新模型:K2。
据网友公开的一张截图显示,发布当天,Kimi 官网的访问量从百千万量级直接暴涨到了36亿。
流量暴涨这么猛,当然是有实力在的。
趁着周末,小编仔细读了Kimi官方账号的报道。此外,也做几个平时会用的几个实战测试。
今天趁着刚测完的热乎劲,谈一谈感受。
首先,这款新型号的模型不少基准方面的表现可以说都超出了小编的预期。
在业界目前卷的最厉害的三个板块:自主编程、工具调用和数学推理,K2可以说迈出了一大步。
在一众主流大模型Claude Opus、Deepseek V3、Qwen 23B、OpenAI GPT4.1的对比中,除了SWE-bench 测试取得了两个第二的成绩,以及在一个专门用于评估智能体能力的开源测试基准Ace中输给了GPT4.1以外,K2在其他五项测试中都取得了第一的成绩。
这里还是想强调的是,数学推理一直是Kimi推理模型的优势,半年过去,Kimi也开始在自主编程、工具调用的方向夺回荣耀。
重要的是,Kimi 上线即开源了这份盛夏的新作品。
接下来,说说让自己的一些“上头”的一些点。
第一个点,万亿参数的模型。相信大家都注意到了,虽然万亿参数模型在我们的概念中已经不新鲜,但对于六小虎而言,万亿参数模型,Kimi是第一家。
同时,虽然模型体量大了,但每次前向推理只激活其中32B,这样K2的思维就像个大智慧者,但又不会造成你的token“云账单”爆表。
我不再需要自定义一个编排层,不再需要做一个基于规则的 planner。只需提供工具 schema,提出个目标,K2就会自己调用工具。
一位网友的真实案例:用一个模拟的 “file-edit” 工具测试让它重构 Swift 包,它不仅写了修改,还跑了测试,而且在测试失败后,它还能自动修复再试!
当然,小编还做了一个有趣的“张艺谋电影风格”的工具调用的视频脚本的测试,稍后给大家看下。
第三点,这一点容易被大家忽略,即这次K2在预训练阶段使用的MuonClip优化器。这一点为什么重要?
因为万亿参数规模下,训练的稳定性和token的使用效率,关系着生产环境下的用户体验,而这一“查询-键重缩放”技巧,能够将以往容易出现的注意力logits失控的问题,有效缓解甚至遏制住。
据官网介绍,Kimi团队在超15万亿tokens的预训练中依旧表现稳定,在网友实际测试中,也确实有效。
此外,在人类高质量数据成为瓶颈的背景下,有效提高Token利用效率,也就意味着找到了新的Scaling空间。
在展示小编自己的实测前,小编发现,全球网友对于K2模型的新印象出奇地认可。
而一位网友的帖子也让小编重新了解了一种大模型的对话用法。
这位网友表示,“这是迄今为止我用过的最好的创意写作模型。我建议在文本补全模式下使用它。”
还有一位网友,对于K2的创造力表示惊讶。
这位甚至认为:K2在补全模式下,编码/常规任务的表现甚至胜过了Sonnet和Gemini 2.5 Pro。
眼见未必为实。好,话不多说,来看看小编的实测情况。
第一个,为了测试K2工具调用的能力,小编设计了一个“中美网红文化交流项目执行”的测试。
注意: 要完成这个任务,涉及到:动态调用多步工具 + 概念合成 + Agent 结果反馈链路等许多复杂的推理工作。
题目如下:
复制
背景: 中国此前推出“中美网红互访活动”工具定义:[ {"name": "select_influencers", "description": "根据条件筛选网红", "parameters":{"min_followers":"int","platform":"string"}}, {"name": "plan_trip", "description": "生成行程安排", "parameters":{"cities":"list","days":"int"}}, {"name": "generate_promo_script", "description": "生成宣传文案", "parameters":{"trip_plan_id":"string"}}]任务:帮助平台:1.选出符合标准的 5 名美国网红;2.安排行程覆盖北京、上海、杭州 7 日游;3.生成一段 Instagram 宣传视频解说脚本。1.2.3.4.5.6.7.8.9.10.11.12.13.14.15.
K2给出的答案非常令人满意:
它不仅真的从从Instagram、Trip等网站上搜集了五名网红、挖掘了宣传视频解说脚本的做法,还按照任务中定义的工具格式,进行了严格的执行,而且反馈链路也非常复杂,竟然没有翻车,这一点非常惊艳。
第二个例子,是小编针对「MuonClip 稳定注意力机制」设计的。这里我从网上找来了金庸老先生的《天龙八部》中最精彩的一段:“燕云十八飞骑 奔腾如虎风烟举”。
这段是全书三主角对战群雄顶尖势力的高光时刻,金老先生用了超过8100多字的笔墨用来描述这样的大场面。
所以,K2 在这么长的文本理解中注意力究竟如何呢?
小编问道:
帮我找出第一次出现慕容复的段落,并分析其在全文中的作用。
K2顺利地找出来了慕容复首次出现的位置,并对金老先生这样安排的原因做出了解析:推动剧情从围困走向车轮战、深化慕容复野心与虚伪的性格、串联多线冲突。
非常精准。
第三个测试,是一个Agent的模拟测试。既然网上都说K2创意满满,小编这次索性让K2模拟“张艺谋智能导演助理”。
问题如下:
复制
工具定义:json[ {"name": "generate_storyboard", "description": "生成分镜脚本", "parameters":{"scene":"string","style":"string","length":"int"}}, {"name": "render_preview", "description": "生成场景预览图", "parameters":{"storyboard_id":"string"}}]任务:以张艺谋导演近期常融入传统文化的风格为基础(热点参考他新片传闻),请设计开场分镜,描述“敦煌 + 赛博朋克风格”,并调用上述工具生成脚本与预览。1.2.3.4.5.6.7.8.9.10.
以张艺谋导演近期常融入传统文化的风格为基础(热点参考他新片传闻),请设计开场分镜,描述“敦煌 + 赛博朋克风格”,并调用上述工具生成脚本与预览。
这次,小编让ChatGPT和K2来了一次对决。
先看K2和ChatGPT给到我的分镜脚本:
K2:
复制
{ "name": "generate_storyboard", "arguments": { "scene": "黎明时分的敦煌石窟,千年壁画在霓虹电路侵蚀下苏醒。赛博飞天机械臂托举全息曼陀罗,传统朱砂颜料与全息投影交织,铜制机械骆驼从黄沙中升起。张艺谋式对称构图,金黄大漠与幽蓝电路光形成强烈对比,红纱蒙面舞者手持光束琵琶,在数字飞沙中旋转。", "style": "张艺谋式大色块美学,敦煌壁画朱砂+群青传统配色融合赛博霓虹,极致对称构图,长镜头运动", "length": 8 }}1.2.3.4.5.6.7.8.
ChatGPT:
复制
{ "name": "generate_storyboard", "parameters": { "scene": "开场镜头描述:一场沙暴之中,镜头穿越风沙,莫高窟巨大的佛像隐约显现。一尊敦煌飞天从壁画中剥离,变为半透明的全息投影,缓缓升空,裙摆如数据流般飘散。画面渐转,一座布满LED和霓虹刻文的高塔矗立在沙漠中,远方飞车穿梭、机械驼队行进。镜头拉近,出现一位机械僧人,面容古朴却嵌有微光线路,他凝视镜头,喃喃低语:‘归来者,皆有前世因缘。’", "style": "敦煌+赛博朋克,融合张艺谋式写意与色彩美学", "length": 6 }}1.2.3.4.5.6.7.8.
遗憾地是,这两款模型出的了脚本,但不能出视频,所以小编为了让大家看出成片,索性让Vidu Q1上场了。
可以说,两者的意图捕捉能力、拆解能力是非常棒的。只是,不知道张大导演怎么看?
这里,K2 也有一些踩坑,分享给大家。
它有时候会在输出 8000+ tokens 后“卡壳”,我不得不给 prompt 加上 “请将回答限制在 3000 tokens 内”。
一位网友表示,自己曾注册了两个名为 open_file 的工具,虽然来自不同命名空间,但 K2 有时会乱选,直到其手动改名才恢复正常。
虽然只激活320亿参数,但还是建议至少使用 48GB 显存,或者多 GPU 分布。vLLM 的 CPU offloading 虽然能跑,但速度……慢得像蜗牛。
很明显,这次月之暗面的新模型,开源,大参数规模、快速、稳定,同时剑指 Agentic Agent!
自主调用工具的能力,Kimi K2 可以说名副其实。那么结合Kimi的在数学代码任务上的优秀表现,建议大家不妨从以下几个场景上手——
如果你只是想闲聊或草拟点内容,更小的开源模型延迟会更低。但如果你的 roadmap 包括“推理 + 执行”,选 K2 应该不会让你失望。
相关文章
文/低空经济探索者今日,小鹏汽车生态企业小鹏汇天宣布完成2.5亿美元B轮融资,累计融资总额突破7.5亿美元(约53.75亿元人民币)。这笔巨额资本如同...
2025-07-16 0
曾经的小伙伴们心头挚爱,当年火到没边的街机厅如今已经难觅踪影了,而就在街机大国日本,更多的老牌街机厅也已经撑不下去了,有着33年历史的日本秋叶原GiG...
2025-07-16 0
道高一尺,魔高一丈?稀土早已不再仅是资源。去年12月,为应对老美对我们层层加码的半导体产业限制措施,我国宣布将严控对美出口镓、锗、锑、超硬材料及石墨等...
2025-07-16 0
中国有一条大江,水能蕴藏量超过三峡,流域内巨大的落差堪称一座天然水电站。二十多年前,工程师们初见其潜力便两眼放光,很快勾勒出 “两库十三级” 的开发蓝...
2025-07-16 0
关于推荐2025年第一季度培育壮大电商经济相关政策拟受奖励企业名单的公示为促进我市直播电商产业健康快速发展,根据《关于做好2025年一季度培育壮大电商...
2025-07-16 0
续航电池82,大概轻度一天没问题性能A15打手机2K掉帧发热严重,日常用一点问题不大外观质感满分,不锈钢边框比我老婆的15pm更上档次屏幕感觉一般,跟...
2025-07-16 1
今天给各位分享微乐透视挂安装的知识,其中也会对微乐透视辅助进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!天天斗地主有没有透视...
2025-07-16 0
今天给各位分享微乐麻将开挂版本软件的知识,其中也会对微乐麻将万能开挂助手进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!微乐麻将...
2025-07-16 1
发表评论