这是6月14日在北京通州路县故城遗址公园内拍摄的汉风景观。新华社记者 罗鑫 摄新华社北京6月19日电 题:北京通州路县故城遗址博物馆睁开“历史之眼”新...
2025-06-22 0
DeepSeek又炸场了。这次是DeepGEMM,一个开源的FP8通用矩阵乘法库。这已经是他们开源周的第三个项目,前两个是FlashMLA和DeepEP,各有千秋,但DeepGEMM,在我看来,才是真正捅破窗户纸的那一个。
说什么窗户纸?AI算力的天花板。一直以来,我们都觉得算力提升靠硬件,英伟达的GPU挤牙膏式升级,我们只能捏着鼻子买单。DeepSeek这次直接掀桌子,告诉你,软件也能挖潜力,而且挖得还很深。
DeepGEMM的核心代码,才300行。你没看错,三百行。对比一下动辄几十万行代码的CUDA库,简直是小品文对鸿篇巨制。但就是这三百行,官方数据亮瞎眼:Hopper GPU上,FP8算力干到1350+ TFLOPS,某些场景比专家调优的CUTLASS还快2.7倍。这什么概念?用更少的代码,跑出更强的性能,简直是教科书级别的效率革命。
DeepGEMM的精髓,在我看来,是四个字:抠门,极致的抠门。抠哪里?抠硬件的每一丝潜力,抠每一行代码的冗余,抠每一分钱的训练成本。
FP8,八位浮点,精度低,但速度快,省显存。DeepSeek V3训练成本能压到557万美元,FP8功不可没。但FP8精度是硬伤,算多了容易崩。DeepGEMM怎么解决?两级累加。张量核心FP8算,CUDA核心FP32累加,精度拉回来。简单粗暴,但有效。就像老中医开药,药材不贵,但配伍讲究,四两拨千斤。
再说JIT编译,即时编译。传统库,先编译好,通用性强,但优化不足。DeepGEMM反其道而行,运行时编译,针对矩阵形状、硬件环境,量身定制内核。就像裁缝做衣服,一人一版,贴身舒适。小矩阵场景,性能提升最高2.7倍,JIT功不可没。这种动态优化的思路,未来绝对是趋势。
还有TMA,Tensor Memory Accelerator,Hopper架构的杀手锏。DeepGEMM把TMA用到了极致,数据搬运、多播、预取,各种花式操作,目的只有一个:榨干带宽,减少延迟。就像老司机开车,油门焊死,弯道超车,不浪费一丝动力。
别忘了MoE,混合专家模型。现在大模型都往MoE方向卷,参数量蹭蹭涨,算力需求也水涨船高。DeepGEMM专门优化了MoE的分组GEMM,连续布局、掩码布局,各种场景都考虑到了。就像厨师做菜,荤素搭配,营养均衡,满足不同口味。
要我说,DeepSeek这是在“教英伟达做计算库”。英伟达的CUTLASS很强大,但太复杂,模板套模板,代数叠代数,普通开发者望而生畏。DeepGEMM反其道而行,简洁至上,代码如教程,降低门槛。这才是开源的真谛,普惠AI,让更多人参与进来,共同推动技术进步。
DeepSeek这次开源,与其说是秀肌肉,不如说是抛出一个行业标准。榨干硬件,就按我的标准来!
联想到前两天DeepSeek API开始收费,这个DeepGEMM开源,更像是一盘大棋。开源底层技术,吸引开发者,构建生态,然后用API服务变现。这套路,互联网公司玩烂了,但在AI领域,还挺新鲜。DeepSeek这是要用开源,搅动AI基础设施市场,打破巨头垄断,开启deepseek王朝!
要我说,顶尖数学家比顶尖显卡更堪国家战略资源。deepseek隐约已开启数学家的王者时代
谢谢各位阅读,喜欢的话别忘了三连支持一下
相关文章
这是6月14日在北京通州路县故城遗址公园内拍摄的汉风景观。新华社记者 罗鑫 摄新华社北京6月19日电 题:北京通州路县故城遗址博物馆睁开“历史之眼”新...
2025-06-22 0
(本文为今日头条原创首发作品,未经授权严禁转载!)看到这个标题,大家肯定以为我是女性。其实,我是一名男生,当年给队长和寡妇大嫂牵红线时,我才二十二岁,...
2025-06-22 0
一、宅基地申请条件1. 身份资格:申请人须为本村集体经济组织成员,具有本村户籍。2. 一户一宅:遵循“一户一宅”原则,一个农村家庭只能拥有一处宅基地,...
2025-06-22 0
去年万圣节,巴黎街头一位中国女孩的摊位前挤满了好奇的法国人。她售卖的不是法式甜点,而是来自中国的冥币和纸扎祭品。令人惊讶的是,LV纸扎包、宠物纸扎三文...
2025-06-22 0
来源:人民网 人民网北京6月20日电 (记者王连香)据国家文物局官网消息,近日,2025年文化和自然遗产日当天,北京城市副中心再添文化新名片,路县故城...
2025-06-22 0
本刊记者 侯隽一只来自中国的“九颗牙小怪兽”正在搅动全球潮玩市场的行情。凌晨3点的拉斯维加斯,为了抢到这只小怪兽,上百名年轻人绕街排队;伦敦门店因为抢...
2025-06-22 1
发表评论