首页 百科大全文章正文

DeepSeek终于还是没憋住!

百科大全 2025年08月24日 01:19 1 admin

DeepSeek终于发布新版本了!

虽然不是大家期待的V4或者R2,但这个3.1的版本,仍然带来了一些小惊喜。

DeepSeek终于还是没憋住!

我们来简要总结下,这个DeepSeek V3.1都有哪些更新↓

1. 混合推理架构

一个模型同时支持 思考模式(Think)与 非思考模式(Chat)。用户可在官方 App/网页端自由切换“深度思考”按钮。

当然这不是DeepSeek首创,今年4月阿里Qwen3发布的时候,就浓墨重彩的宣传了一下这种架构。

我们还写了一个科普:漫画趣解:什么是混合推理模型?有啥好处?

2. 更高的思考效率

相比 DeepSeek-R1-0528,V3.1-Think速度更快,能在更短时间内给出答案。

DeepSeek通过「思维链压缩训练」,在 减少20%-50% token输出的情况下,性能与0528持平。

说白了,就是去掉无效推理、合并推理步骤、保留关键逻辑,但干货质量不变,少浪费token。

DeepSeek终于还是没憋住!

另外,素输出也做了优化,废话更少了,非思考模式下,输出长度得到有效控制,相比V3更精简,性能保持不变。

3. 更强的Agent能力

现在智能体概念太火,DeepSeek当然不想错过。

经过Post-Training优化,V3.1在工具调用与 智能体任务中表现提升明显。

编程智能体:在SWE、Terminal-Bench 测评中,修复和复杂终端任务能力显著增强。(能跟Claude叫板么)

DeepSeek终于还是没憋住!

搜索智能体:在browsecomp、HLE等复杂搜索与跨学科难题测试上性能大幅提升。

DeepSeek终于还是没憋住!

4. API功能升级

API 区分「非思考模式」和「思考模式」,支持128K上下文窗口。

同时增加了对Anthropic API 格式的支持,可接入Claude Code框架(好消息)。

5. 开源与训练更新

V3.1的Base模型在V3的基础上重新做了外扩训练,一共增加训练了840B tokens。

Base 模型与后训练模型均已在 Huggingface 与魔搭开源。

特别重要的一点是这一版的DeepSeek调整了分词器与chat template,这意味着如果需要做模型微调,需要对齐新的分词器,API调用也需要更新chat template。

另外官方特别说明,模型采用了UE8M0 FP8 Scale 参数精度,比V3更进了一步:参数、激活在训练与推理中大规模切换到FP8,通过动态scale避免溢出/精度损失。

这真是N记H卡B卡的舒适区,菊卡就很难办。

6. 价格调整,取消优惠

2025年9月6日凌晨起,启用新价格表,夜间优惠没了,昼夜同价。

DeepSeek终于还是没憋住!

遗憾的是,V4还没来,R2还没来。

而且,这一版本仍然偏重文本(Chat、Reasoning、Agent),

在多模态交互、应用场景拓展上,DeepSeek 还没跟上。

生态与工具链成熟度也差点火候,虽然增加了Function Calling+Agent优化,但生态仍然有限。

另外通过「思维链压缩」达到高效推理是一种相对激进的方案,如果面对“复杂推理+工具协同”场景时,可能会大脑短路。

而这个场景,恰恰是Agentic AI的重度需求。

目前,DeepSeek官方网页端、App、小程序及 API 开放平台所调用模型均已同步更新。

大家赶紧去试起来吧!

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动