DeepSeek终于还是没憋住！

百科大全 2025年08月24日 01:19 1 admin

DeepSeek终于发布新版本了！

虽然不是大家期待的V4或者R2，但这个3.1的版本，仍然带来了一些小惊喜。

我们来简要总结下，这个DeepSeek V3.1都有哪些更新↓

1. 混合推理架构

一个模型同时支持思考模式（Think）与非思考模式（Chat）。用户可在官方 App/网页端自由切换“深度思考”按钮。

当然这不是DeepSeek首创，今年4月阿里Qwen3发布的时候，就浓墨重彩的宣传了一下这种架构。

我们还写了一个科普：漫画趣解：什么是混合推理模型？有啥好处？

2. 更高的思考效率

相比 DeepSeek-R1-0528，V3.1-Think速度更快，能在更短时间内给出答案。

DeepSeek通过「思维链压缩训练」，在减少20%-50% token输出的情况下，性能与0528持平。

说白了，就是去掉无效推理、合并推理步骤、保留关键逻辑，但干货质量不变，少浪费token。

另外，素输出也做了优化，废话更少了，非思考模式下，输出长度得到有效控制，相比V3更精简，性能保持不变。

3. 更强的Agent能力

现在智能体概念太火，DeepSeek当然不想错过。

经过Post-Training优化，V3.1在工具调用与智能体任务中表现提升明显。

编程智能体：在SWE、Terminal-Bench 测评中，修复和复杂终端任务能力显著增强。（能跟Claude叫板么）

搜索智能体：在browsecomp、HLE等复杂搜索与跨学科难题测试上性能大幅提升。

4. API功能升级

API 区分「非思考模式」和「思考模式」，支持128K上下文窗口。

同时增加了对Anthropic API 格式的支持，可接入Claude Code框架（好消息）。

5. 开源与训练更新

V3.1的Base模型在V3的基础上重新做了外扩训练，一共增加训练了840B tokens。

Base 模型与后训练模型均已在 Huggingface 与魔搭开源。

特别重要的一点是这一版的DeepSeek调整了分词器与chat template，这意味着如果需要做模型微调，需要对齐新的分词器，API调用也需要更新chat template。

另外官方特别说明，模型采用了UE8M0 FP8 Scale 参数精度，比V3更进了一步：参数、激活在训练与推理中大规模切换到FP8，通过动态scale避免溢出/精度损失。

这真是N记H卡B卡的舒适区，菊卡就很难办。

6. 价格调整，取消优惠

2025年9月6日凌晨起，启用新价格表，夜间优惠没了，昼夜同价。

遗憾的是，V4还没来，R2还没来。

而且，这一版本仍然偏重文本（Chat、Reasoning、Agent），

在多模态交互、应用场景拓展上，DeepSeek 还没跟上。

生态与工具链成熟度也差点火候，虽然增加了Function Calling+Agent优化，但生态仍然有限。

另外通过「思维链压缩」达到高效推理是一种相对激进的方案，如果面对“复杂推理+工具协同”场景时，可能会大脑短路。

而这个场景，恰恰是Agentic AI的重度需求。

目前，DeepSeek官方网页端、App、小程序及 API 开放平台所调用模型均已同步更新。

大家赶紧去试起来吧！

夸克健康大模型万字调研报告：透视主任医师级AI大脑背后的工程化

山东艾孚特等申请连续绝热合成亚硝酸异丙酯方法专利，缩短反应时间提升生产效率

发表评论