在阅读此文之前,辛苦您点击一下“关注”,既方便您进行讨论和分享,又能给您带来不一样的参与感,感谢您的支持!编辑|LCH.B遥想当年,仅用一句“官宣”,...
2025-08-08 0
责编 | 唐小引 Echo Tang
亲爱的开发者们,大模型领域最著名、热度最高、DeepSeek 推荐使用的开源推理引擎之一——SGLang 在国内的首场 Workshop 线下活动来啦!
9 月 13-14 日,由 GOSIM 全球开源创新汇主办、CSDN 承办的 GOSIM HANGZHOU 2025 将在杭州白金汉爵大酒店(西湖区)正式举行。在此次大会上,SGLang Workshop 将与大家一起见面。
作为高效的开源大规模 LLM 服务框架,SGLang 在过去一年里经历了快速的迭代和发展。本次 Workshop 希望能够和大家在线下面对面深入交流,帮助大家更好地使用 SGLang。为此特别邀请到了多位 SGLang 的开发者,将深入分享 SGLang 的核心功能的特点,及其背后的设计思路和取舍。同时阿里通义千问 Qwen、科大讯飞的同学将分享他们内部的应用实践,希望能够给工业界正在或想要应用 SGLang 的听众一些启发,探索出自己业务场景下使用 SGLang 的最优方案。
大会官网:https://hangzhou2025.gosim.org/
SGLang 是一个高效的开源大规模 LLM 服务框架。在过去的一年中,SGLang 经历了快速的迭代和发展,本次 Talk 将概括性地介绍 SGLang 的核心特性,主要包括:KV Cache 复用、Zero-overhead 批调度、投机采样、Prefill & Decode 分离和大规模专家并行。
核心特性:
基于 RadixAttention 的高效 KV Cache 复用
张懿,阿里云的研发工程师,SGLang Team 的成员之一,目前主要关注构建高性能的 LLM/VLM 推理引擎。
大语言模型的推理过程包含两个截然不同的阶段:预填充(Prefill)和解码(Decode)。其中,预填充阶段属于计算密集型任务,负责处理整个输入序列;而解码阶段属于访存密集型任务,需管理 token 生成过程中所需的键值(KV)缓存。传统方法通常将这两个阶段统一在同一个引擎内调度处理,导致预填充批次和解码批次调度互相干扰,引入效率损失。
为解决上述问题,我们在 SGLang 中引入了预填充与解码解耦(Prefill and Decode Disaggregation,简称 PD 分离)方案,在互不干扰的同时也使得每个阶段可以分别进行针对性的优化。本次演讲将详细介绍 Mooncake 后端的具体实现,这是 SGLang 首个集成且默认的 PD 分离后端。除了简述整体流程,本次演讲还将详细介绍 PD 分离如何与 DP attention 和 MTP 等特性协同工作,以及如何支持预填充与解码阶段采用不同的张量并行(TP)策略。此外,还将介绍我们为了确保在生产环境下稳定运行,在 PD 节点容错和伸缩方面所做的一些工作。
蔡尚铭,Mooncake Core Member / SGLang Committer
蔡尚铭于 2022 年在清华大学计算机科学与技术系获得计算机科学博士学位。目前,他是阿里云飞天实验室的工程师和研究员,并积极参与 SGLang、Mooncake、vLLM 等开源大语言模型项目的研发。他的主要研究兴趣包括分布式机器学习训练、大语言模型、高效推理服务系统以及大数据分析。
讯飞基于开源引擎结合自身推理服务框架在 PD 分离上的相关技术介绍。
现任职于科大讯飞,负责 MaaS 平台的研发工作。
通过强化学习(RL)和测试时扩展(TTS)来优化大语言模型(LLM)的输出,已成为当前趋势,这也使得高效的推理引擎成为了模型训练中前所未有重要的一环。本次演讲将介绍 SGLang 在强化学习场景下的最新进展及社区应用情况。
林骏荣,通义千问(Qwen)后训练团队工程师。参与 SGLang、verl 等社区大语言模型开源项目的研发。
推测式解码(Speculative Decoding)是一种能够显著加速大语言模型(LLM)推理的强大技术。本次演讲将首次宣布开源 SpecForge 框架——一种基于 Eagle3 的推测式解码模型训练新框架。SpecForge 专为易用性设计,并与 SGLang 推理引擎紧密集成,实现从训练到部署的无缝衔接。
首先,我将介绍什么是推测式解码,以及它如何帮助加速 LLM 推理过程;其次,我将介绍当前领先的推测式解码方法——EAGLE;接下来,我会详细介绍 SpecForge 框架的架构,包括在线训练模式和离线训练模式;最后,我将分享通过 SpecForge 训练的模型的实验效果。
此议题由以下两位演讲者共同分享:
现任 SGLang 项目提交者。
王超,SGLang Committer
王超,美团软件工程师,专注于利用 TensorFlow/TensorRT 进行点击率(CTR)模型的 GPU 推理,以及利用 PyTorch 进行大语言模型(LLMs)的 GPU 推理。此前曾任职于腾讯。
曹逸中,通义千问(Qwen)推理团队工程师。
欢迎大家在金秋 9 月一起相聚杭州,西子湖畔,我们等你共赴一场关于“开源、协作与未来”的技术盛会!
9 月 13- 14 日,GOSIM HANGZHOU 2025
1500 + 全球一线开源开发者
100 + 海内外资深专家
100 +优质技术分享
5 大技术论坛
9 场主题 Workshop
3 场 Hackathon 创新竞赛
1 场 GOSIM AI for Humanity Spotlight
特别联动 Rust 十周年精彩活动 RustGlobal + RustChinaConf
大咖云集,内容丰富
相关文章
在阅读此文之前,辛苦您点击一下“关注”,既方便您进行讨论和分享,又能给您带来不一样的参与感,感谢您的支持!编辑|LCH.B遥想当年,仅用一句“官宣”,...
2025-08-08 0
金融界2025年8月8日消息,国家知识产权局信息显示,盈诠科技股份有限公司取得一项名为“塑料热成型设备”的专利,授权公告号CN223199570U,申...
2025-08-08 0
金融界2025年8月8日消息,国家知识产权局信息显示,西峡县锦羽创意包装有限责任公司取得一项名为“一种印刷纸品的涂胶装置”的专利,授权公告号CN223...
2025-08-08 0
近日,国家网信办发布了互联网新闻信息服务“持证亮牌”工程的最新进展。截至7月25日,已有超过13500个公众账号完成红“V”标识标注,同步公示服务主体...
2025-08-08 0
每经AI快讯,科大智能(300222 8月8日在互动平台表示,公司智能机器人应用相关产品不涉及直接采购和应用稀土永磁材料。每日经济新闻...
2025-08-08 0
金融界2025年8月8日消息,国家知识产权局信息显示,舟山市创鑫螺杆制造有限公司取得一项名为“一种用于生产PVC流延膜的挤出螺杆以及挤出装置”的专利,...
2025-08-08 0
金融界2025年8月8日消息,国家知识产权局信息显示,上海朗遥通信技术有限公司申请一项名为“一种被用于无线通信的节点中的CSI测量的方法和装置”的专利...
2025-08-08 0
金融界2025年8月8日消息,国家知识产权局信息显示,思腾合力(天津)科技有限公司申请一项名为“一种分布式算力智能调度系统及方法”的专利,公开号CN1...
2025-08-08 0
发表评论