首页 游戏天地文章正文

DeepSeek更新后登上热搜,实测后我觉得不如……

游戏天地 2025年08月22日 10:13 1 admin

昨天晚上,DeepSeek因一起“大模型世子之争”久违的登上了微博热搜。

有网友问D老师,你和豆包删一个你删谁?

DeepSeek思考了12秒之后说了三个字:删豆包。

比起豆包茶茶的说,“你删我吧,需要我的时候再把我下回来”,DeepSeek显得十分直男。

黑马也去试了一下:

DeepSeek更新后登上热搜,实测后我觉得不如……

网友说的是真的。

其实DeepSeek从爆火到现在,也是经历了不少风风雨雨。

今年年初,DeepSeek横空出世的时候,黑马身边几乎所有人都在用Deepseek算命、写东西。

但随着元宝、百度、豆包、夸克纷纷上线了深度思考模型,我就发现身边用DeepSeek的人越来越少了。

一方面DeepSeek在使用体验上确实不太舒服,整个系统延迟很高,问个很简单的问题都要响应半天,黑马几乎不会用DeepSeek查资料。

其次它记性也不太好,上下文长度只支持到64k,你多追问几次,就会发现它直接把你的上文忘了,非常脑淤血。

另一方面,DeepSeek自己好像也对搞这种To C产品不太感兴趣,本来今年5月就跟应该迭代的DeepSeek-R2一再跳票,到现在都还没有准确的信息。

反而在给友商开放API接口,以及开源上面非常慷慨,有数据显示DeepSeek R1和V3在第三方主机上的总使用量增长了将近20倍

DeepSeek更新后登上热搜,实测后我觉得不如……

前段时间,DeepSeek还被带了一波节奏,说是使用率从50%跌到了3%,虽然我不知道这个数字他们是从哪挖出来的。

DeepSeek更新后登上热搜,实测后我觉得不如……

不过据黑马看到的资料显示,DeepSeek的份额确实从年初的7%下滑到了四月底的3%,腰斩了。

DeepSeek更新后登上热搜,实测后我觉得不如……

考虑到DeepSeek本身显卡资源短缺,也不知道这种情况是否是DeepSeek有意蛰伏。

不过DeepSeek前几天倒是终于暗戳戳更新了一个小版本——DeepSeek V3.1

黑马研究了一下DeepSeek这波低调的迭代,发现这是真的低调,谁也没通知不说,连迭代内容也很克制:

上下文长度拓展到128k(大概10万-16万汉字的超长文本),多语言编程能力大幅度提升,推理和知识准确性提升。

DeepSeek更新后登上热搜,实测后我觉得不如……

黑马也一直在留意媒体老师们的测评,得到的反馈基本上都是挺正面的:

什么“编程测试确实有两把刷子”、“长文本处理也很精准”、“逻辑分析很牛”、“搜索整合信息很准确”……

DeepSeek更新后登上热搜,实测后我觉得不如……

图源:APPSO

但黑马作为一个文字编辑,我其实还是更看重大模型的写作能力——当年DeepSeek出圈就是因为创作力强,这次更新之后AI味儿会不会少点?跟声名在外的Claude比谁更好用?

反正都是赛博斗蛐蛐,我把最近几个比较火的大模型都拉过来一起对比。

参赛选手包括:Gemini 2.5 Pro、ChatGPT-5、Grok 3、Deepseek V3.1、Claude-Sonnet-4

但这次我没准备让AI帮我写稿,而是直接让它们进行比较纯粹的文字创作,弱化了对信息搜集整理的需求。

黑马找来了一个很有水平的“恐怖小说提示词”,喂给了几个AI。

(36:李继刚老师的提示词,感觉比正文还克苏鲁)

DeepSeek更新后登上热搜,实测后我觉得不如……


结合最近的生活经历,我把主题定为了“蚊子”

先来看看DeepSeek V3.1的作品:

DeepSeek更新后登上热搜,实测后我觉得不如……

上下滑动查看

在提示词的影响下,DeepSeek创作的文字非常的有那味道,用一些看似正常的细节描述,完成了一篇处处诡异的文章,也没有太多的场景描写,全篇都是和蚊子的疯狂拉扯。

但这个诡异感吧不是很有感觉,越往后面我越感觉有一种“我”被蚊子烦了一晚上终于疯了,还不幸患上了“夏夜被蚊叮的睡不着”PTSD的感觉。

对于文字风格我还是比较满意的,虽然仔细读下来割裂感比较严重,但是这种咯噔感放到恐怖小说里,反而渲染了诡异的氛围。

同样的提示词,我也喂给了Claude Sonnet 4:

DeepSeek更新后登上热搜,实测后我觉得不如……

是它给我的故事:

DeepSeek更新后登上热搜,实测后我觉得不如……

上下滑动查看

Claude不一样的地方在于,它真的给这个故事套了个背景,初读就给我一种沉浸感。

它给的恐怖来自于“我”的意识被蚊子群体意识侵蚀,是一种比较常见的恐怖流派,Claude在套公式这一块还是很强的。

至于文字表达上,黑马主上觉得要比DeepSeek要更有可读性一点,大家可以自行判断。

然后是ChatGPT-5

DeepSeek更新后登上热搜,实测后我觉得不如……

上下滑动查看

ChatGPT比Claude还要激进一点,它直接让蚊子把“我”寄生了,这个流派比意识夺舍流还要大众。

至于可读性上个人感觉和DeepSeek不相上下。

接下来是Gemini 2.5 Pro

DeepSeek更新后登上热搜,实测后我觉得不如……

上下滑动查看

故事的恐怖程度和Claude、ChatGPT比要差一点,可能是因为没有套公式的原因,有一种自己吓自己的感觉。

但在可读性上,个人感觉Gemini和Claude不相上下,有故事性逻辑也很连贯。

最后是Grok 3

DeepSeek更新后登上热搜,实测后我觉得不如……

上下滑动查看

可能是没有用到Grok3.5的原因吧,感觉Grok的效果是五个里面最差的,遣词造句非常大众,也没有营造出诡异的氛围。

这篇大家就自行体会吧。

总的来说,如果让我给五个AI的表现排名,应该是:

Claude Sonnet 4>Gemini 2.5 Pro>ChatGPT-5=Deepseek V3.1>Grok 3

以上均为纯主观看法,个人感觉提示词加分不少,下次有机会再试试普通提示词的效果。

其实从迭代版本的编号能看出,DeepSeek V3.1也没迈大步子,但可能是黑马一直在等DeepSeek更新,期待比较高,所以觉得这次更新稍显平淡。

有消息称,DeepSeek V3.1 可能是融合推理模型与非推理模型的混合模型,但混合模型的精度和质量似乎还有待证明。

最后,我就只有一个问题了,R2什么时候可以端上来啊?!

撰文:柯然

编辑:小马哥


发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动