DeepSeek开源6850亿参数模型，在Hugging Face热度飙升

抖音推荐 2025年08月21日 10:10 1 admin

🤖 由文心大模型生成的文章摘要

文章介绍了DeepSeekV3.1-Bas

DeepSeek宣布开源其最新的语言模型DeepSeekV3.1-Base版本，并将模型文件上传至全球知名的Hugging Face平台。这一举措迅速引发了广泛关注，该模型在Hugging Face的趋势榜单中强势上升，目前已跃居第4名。

DeepSeekV3.1-Base模型的参数规模堪称庞大，达到了惊人的6850亿，这使其在处理复杂任务和理解上下文时具备更强的能力。在张量类型方面，它支持BF16、F8_E4M3、F32三种类型。BF16（BrainFloat16）是一种16位浮点格式，其8位指数和7位尾数的设计，让它拥有与FP32一致的动态范围，在一些训练场景中能提供稳定性；F8_E4M3属于8位浮点数格式中的一种，其中4位用于指数、3位用于尾数，这种格式在梯度计算等方面有独特优势；F32则是较为常见的32位浮点格式，在精度要求较高的计算中表现出色。多种张量类型的支持，使得该模型能适应不同硬件环境和计算需求，无论是追求计算效率还是精度，都能找到合适的配置。

模型以Safetensors格式发布，这一格式由Hugging Face开发并开源，专为解决传统模型存储格式在安全性和加载效率上的问题而设计。与传统的PyTorch的.pt/.pth格式以及TensorFlow的.ckpt格式相比，Safetensors是纯二进制格式，不依赖pickle，避免了恶意代码利用pickle执行任意代码的安全隐患。同时，它支持零拷贝加载，能够直接从磁盘映射到内存，无需额外的解压或复制操作，大大提高了加载效率，尤其适合像DeepSeekV3.1-Base这样的大规模模型，在分布式训练或大模型推理中优势显著。

值得一提的是，DeepSeekV3.1-Base还具备扩展的上下文窗口，这意味着它在处理单个查询时，可以处理和保留更多信息，从而在长文本理解、对话连贯性等方面有更好的表现。无论是进行长篇文档的分析，还是参与复杂的多轮对话，该模型都能凭借其扩展的上下文窗口，更全面地理解上下文含义，给出更准确、更符合逻辑的回答。

随着DeepSeekV3.1-Base在Hugging Face平台热度的持续上升，预计它将在人工智能研究、开发等领域得到广泛应用和深入研究，为推动行业发展注入新的活力。

【“声”动高新】“无人区”与“有人区”

抖音发布最新预警

发表评论

DeepSeek开源6850亿参数模型，在Hugging Face热度飙升

【“声”动高新】“无人区”与“有人区”

抖音发布最新预警

最新评论

最新留言

标签列表