无需打开直接搜索微信:本司针对手游进行,选择我们的四大理由: ...
2025-08-24 0
DeepSeek终于发布新版本了!
虽然不是大家期待的V4或者R2,但这个3.1的版本,仍然带来了一些小惊喜。
我们来简要总结下,这个DeepSeek V3.1都有哪些更新↓
一个模型同时支持 思考模式(Think)与 非思考模式(Chat)。用户可在官方 App/网页端自由切换“深度思考”按钮。
当然这不是DeepSeek首创,今年4月阿里Qwen3发布的时候,就浓墨重彩的宣传了一下这种架构。
我们还写了一个科普:漫画趣解:什么是混合推理模型?有啥好处?
相比 DeepSeek-R1-0528,V3.1-Think速度更快,能在更短时间内给出答案。
DeepSeek通过「思维链压缩训练」,在 减少20%-50% token输出的情况下,性能与0528持平。
说白了,就是去掉无效推理、合并推理步骤、保留关键逻辑,但干货质量不变,少浪费token。
另外,素输出也做了优化,废话更少了,非思考模式下,输出长度得到有效控制,相比V3更精简,性能保持不变。
现在智能体概念太火,DeepSeek当然不想错过。
经过Post-Training优化,V3.1在工具调用与 智能体任务中表现提升明显。
编程智能体:在SWE、Terminal-Bench 测评中,修复和复杂终端任务能力显著增强。(能跟Claude叫板么)
搜索智能体:在browsecomp、HLE等复杂搜索与跨学科难题测试上性能大幅提升。
API 区分「非思考模式」和「思考模式」,支持128K上下文窗口。
同时增加了对Anthropic API 格式的支持,可接入Claude Code框架(好消息)。
V3.1的Base模型在V3的基础上重新做了外扩训练,一共增加训练了840B tokens。
Base 模型与后训练模型均已在 Huggingface 与魔搭开源。
特别重要的一点是这一版的DeepSeek调整了分词器与chat template,这意味着如果需要做模型微调,需要对齐新的分词器,API调用也需要更新chat template。
另外官方特别说明,模型采用了UE8M0 FP8 Scale 参数精度,比V3更进了一步:参数、激活在训练与推理中大规模切换到FP8,通过动态scale避免溢出/精度损失。
这真是N记H卡B卡的舒适区,菊卡就很难办。
2025年9月6日凌晨起,启用新价格表,夜间优惠没了,昼夜同价。
遗憾的是,V4还没来,R2还没来。
而且,这一版本仍然偏重文本(Chat、Reasoning、Agent),
在多模态交互、应用场景拓展上,DeepSeek 还没跟上。
生态与工具链成熟度也差点火候,虽然增加了Function Calling+Agent优化,但生态仍然有限。
另外通过「思维链压缩」达到高效推理是一种相对激进的方案,如果面对“复杂推理+工具协同”场景时,可能会大脑短路。
而这个场景,恰恰是Agentic AI的重度需求。
目前,DeepSeek官方网页端、App、小程序及 API 开放平台所调用模型均已同步更新。
大家赶紧去试起来吧!
相关文章
您好:这款游戏是可以开挂的,软件加微信【添加图中微信】确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到其他人...
2025-08-24 0
感情里最忌讳的是“揣着明白装糊涂”,尤其是对那些心思活络、不把真心当回事的人,其实不用深交也能看出端倪。女人若不正经,从来不是藏在细枝末节里的秘密,这...
2025-08-24 0
在智能手机市场竞争白热化的今天,新品发布的节奏往往直接影响品牌的市场声量与用户口碑,甚至影响品牌发展。然而,魅族却选择了一条看似“反常规”的道路,原定...
2025-08-24 0
亲,这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这...
2025-08-24 0
发表评论