近日,由中国生物工程学会与兰州理工大学共同主办,兰州理工大学生命科学与工程学院、甘肃省生物工程学会等单位承办,齐鲁医药学院公共卫生学院、甘肃中医药大学...
2025-08-21 0
智东西
作者 | 陈骏达
编辑 | 心缘
智东西8月21日报道,今天,字节跳动Seed团队开源了Seed-OSS系列模型,这些模型专为长上下文、推理、Agent和通用场景设计,将上下文窗口扩展至512k,是业界常见上下文窗口(128k)的4倍,GPT-5上下文窗口的2倍,相当于1600页文本。
Seed-OSS系列模型是推理模型,专门针对推理任务进行了优化,还允许用户灵活地控制思维预算。
字节Seed团队共开源了Seed-OSS的三个版本,分别为:
(1)基础模型Seed-OSS-36B-Base
(2)无合成数据基础模型Seed-OSS-36B-Base-woSyn
(3)指令微调模型Seed-OSS-36B-Instruct
指令微调后的Seed-OSS-36B-Instruct在通用知识、Agent、编程、长上下文等领域的基准测试中,取得同量级开源模型中的7项SOTA(性能最佳)表现,整体能力超过了Qwen3-32B、Gemma3-27B、gpt-oss-20B等模型,与Qwen3-30B-A3B-Thinking-2507在大部分领域旗鼓相当。
基准测试结果,加粗项为开源SOTA(图源:Hugging Face)
Seed-OSS系列模型采用了宽松的Apache2.0开源协议,并会在后续发布模型的详细技术报告。
开源地址:
https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Base
https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct
值得一提的是,字节Seed团队本次的发布方式较为“研究友好”。鉴于在预训练中包含合成指令数据可能会影响后训练研究,无合成数据基础模型的发布,为研究社区提供了更多样化的选择。这一系列模型还支持4位和8位格式的量化,以减少内存需求。
Seed-OSS系列模型使用了12万亿个token的预训练数据,采用当前主流的因果语言模型架构,也就是“预测下一个token”类型的模型。同时,Seed-OSS系列均为稠密模型,没有采用MoE等架构。
这一系列模型结合了几项关键技术,包括RoPE(旋转位置编码)、GQA注意力机制(Grouped Query Attention)、RMSNorm归一化(Root Mean Square Normalization)、SwiGLU激活函数等。这是现代大模型常见的高效组件组合,可提升训练稳定性和推理性能。
Seed-OSS的上下文窗口达512k,相当于能一次性处理数十万字的内容。这一上下文窗口并非后续扩展而来,而是通过原生训练打造的。
思考预算功能可帮助开发者控制模型推理成本,优化使用体验等。字节Seed团队分享了Seed-OSS在不同思考预算下性能的变化情况。
对于更简单的任务(如IFEval),模型的思维链较短,随着思维预算的增加,分数波动并不明显。对于更具挑战性的任务(如AIME和LiveCodeBench),模型的思维链更长,随着思维预算的增加,分数也会提高。
字节Seed团队称,如果没有设置思维预算(默认模式),Seed-OSS将不会拥有任何思考长度限制。
如果指定了思维预算,建议优先考虑512的整数倍值,因为模型已经在这些区间上进行了大量的训练。
当思维预算为0时,模型会直接输出内容,建议将任何低于512的预算设置为0。
Seed-OSS系列模型,获得了不少开发者的认可。Hugging Face的华人工程师Tiezhen Wang评价道,这一系列模型“很适合做消融研究”。这种研究能以较低的成本,探索不同组件对大模型性能的影响。
有网友称,这种尺寸的基础模型在开源界也是比较罕见的,Qwen3就没有公布14B以上的基础模型。另一位网友补充道,长上下文能力对真实应用而言有很大的价值。
近期,字节Seed团队已经密集开源了多款模型,除此次的Seed-OSS系列之外,他们还开源了多语言翻译模型Seed-X、智能体模型Tar系列、图像编辑模型Vincie等。
如今,开源已经逐渐从可选项变为近似“标配”的存在,连OpenAI等原本坚持闭源策略的厂商,也在逐步开源模型。字节本次将更为核心的语言模型贡献给社区,给开源社区的后续研究提供了更多基础模型的选择。
相关文章
近日,由中国生物工程学会与兰州理工大学共同主办,兰州理工大学生命科学与工程学院、甘肃省生物工程学会等单位承办,齐鲁医药学院公共卫生学院、甘肃中医药大学...
2025-08-21 0
如今大家用微信转账越来越多过程中难免一些纠纷比如有网友描述自己的遭遇:有一次把一个季度的房租好几万元用微信转给房东结果房东说没收到最后只能闹上法庭大家...
2025-08-21 0
在竞争白热化的厨电市场,头部品牌的表现往往折射出行业发展的深层趋势。8月20日,2025中国厨电行业高峰论坛上,卡萨帝致境Air油烟机斩获“2025中...
2025-08-21 0
近日,新黄河记者从山东省人力资源和社会保障厅网站了解到,第十一届(2024年度 山东省人力资源社会保障优秀科研成果评选经过初审、复审和专家评审,最终确...
2025-08-21 0
大熊猫面孔的镋钯机器人搭载自研“最强大脑”,灵活舞动双脚与市民“斗舞”、小吒机器人稳步巡检,开启导览讲解模式、“非遗糖画大师”机器人现场制作糖画、大熊...
2025-08-21 0
针对美媒近日关于美国知名企业家埃隆·马斯克暂停组建“美国党”的报道,马斯克8月20日在社交媒体平台上予以否认,批评报道失实。然而,美国副总统万斯当日告...
2025-08-21 1
当前,人工智能正成为推动教育高质量发展的新动能。在即将举办的2025中国国际大数据产业博览会(简称数博会)上,工匠行科技有限公司(简称工匠行科技)将携...
2025-08-21 1
发表评论