GitHub 超 16,000 Star！开源大模型推理框架 SGLang 中国首场 Workshop 来啦，GOSIM一起相约

百科大全 2025年08月08日 13:50 1 admin

责编 | 唐小引 Echo Tang

亲爱的开发者们，大模型领域最著名、热度最高、DeepSeek 推荐使用的开源推理引擎之一——SGLang 在国内的首场 Workshop 线下活动来啦！

9 月 13-14 日，由 GOSIM 全球开源创新汇主办、CSDN 承办的 GOSIM HANGZHOU 2025 将在杭州白金汉爵大酒店（西湖区）正式举行。在此次大会上，SGLang Workshop 将与大家一起见面。

作为高效的开源大规模 LLM 服务框架，SGLang 在过去一年里经历了快速的迭代和发展。本次 Workshop 希望能够和大家在线下面对面深入交流，帮助大家更好地使用 SGLang。为此特别邀请到了多位 SGLang 的开发者，将深入分享 SGLang 的核心功能的特点，及其背后的设计思路和取舍。同时阿里通义千问 Qwen、科大讯飞的同学将分享他们内部的应用实践，希望能够给工业界正在或想要应用 SGLang 的听众一些启发，探索出自己业务场景下使用 SGLang 的最优方案。

大会官网：https://hangzhou2025.gosim.org/

GitHub 超 16,000 Star！开源大模型推理框架 SGLang 中国首场 Workshop 来啦，GOSIM一起相约

议题及嘉宾详情

《SGLang：一个高效的开源大规模 LLM 服务框架》

SGLang 是一个高效的开源大规模 LLM 服务框架。在过去的一年中，SGLang 经历了快速的迭代和发展，本次 Talk 将概括性地介绍 SGLang 的核心特性，主要包括：KV Cache 复用、Zero-overhead 批调度、投机采样、Prefill & Decode 分离和大规模专家并行。

核心特性：

基于 RadixAttention 的高效 KV Cache 复用

张懿，SGLang Committer

张懿，阿里云的研发工程师，SGLang Team 的成员之一，目前主要关注构建高性能的 LLM/VLM 推理引擎。

《SGLang 与 Mooncake 的预填充/解码解耦方案》

大语言模型的推理过程包含两个截然不同的阶段：预填充（Prefill）和解码（Decode）。其中，预填充阶段属于计算密集型任务，负责处理整个输入序列；而解码阶段属于访存密集型任务，需管理 token 生成过程中所需的键值（KV）缓存。传统方法通常将这两个阶段统一在同一个引擎内调度处理，导致预填充批次和解码批次调度互相干扰，引入效率损失。

为解决上述问题，我们在 SGLang 中引入了预填充与解码解耦（Prefill and Decode Disaggregation，简称 PD 分离）方案，在互不干扰的同时也使得每个阶段可以分别进行针对性的优化。本次演讲将详细介绍 Mooncake 后端的具体实现，这是 SGLang 首个集成且默认的 PD 分离后端。除了简述整体流程，本次演讲还将详细介绍 PD 分离如何与 DP attention 和 MTP 等特性协同工作，以及如何支持预填充与解码阶段采用不同的张量并行（TP）策略。此外，还将介绍我们为了确保在生产环境下稳定运行，在 PD 节点容错和伸缩方面所做的一些工作。

蔡尚铭，Mooncake Core Member / SGLang Committer

蔡尚铭于 2022 年在清华大学计算机科学与技术系获得计算机科学博士学位。目前，他是阿里云飞天实验室的工程师和研究员，并积极参与 SGLang、Mooncake、vLLM 等开源大语言模型项目的研发。他的主要研究兴趣包括分布式机器学习训练、大语言模型、高效推理服务系统以及大数据分析。

《讯飞 MaaS 平台大模型高性能推理实践》

讯飞基于开源引擎结合自身推理服务框架在 PD 分离上的相关技术介绍。

杨彦波，SGLang Committer

现任职于科大讯飞，负责 MaaS 平台的研发工作。

《和 SGLang 一起思考：推理赋能强化学习时代的模型训练》

通过强化学习（RL）和测试时扩展（TTS）来优化大语言模型（LLM）的输出，已成为当前趋势，这也使得高效的推理引擎成为了模型训练中前所未有重要的一环。本次演讲将介绍 SGLang 在强化学习场景下的最新进展及社区应用情况。

林骏荣，SGLang Committer、Qwen 团队成员

林骏荣，通义千问（Qwen）后训练团队工程师。参与 SGLang、verl 等社区大语言模型开源项目的研发。

《SpecForge：用于训练推测式解码模型的开源框架》

推测式解码（Speculative Decoding）是一种能够显著加速大语言模型（LLM）推理的强大技术。本次演讲将首次宣布开源 SpecForge 框架——一种基于 Eagle3 的推测式解码模型训练新框架。SpecForge 专为易用性设计，并与 SGLang 推理引擎紧密集成，实现从训练到部署的无缝衔接。

首先，我将介绍什么是推测式解码，以及它如何帮助加速 LLM 推理过程；其次，我将介绍当前领先的推测式解码方法——EAGLE；接下来，我会详细介绍 SpecForge 框架的架构，包括在线训练模式和离线训练模式；最后，我将分享通过 SpecForge 训练的模型的实验效果。

此议题由以下两位演讲者共同分享：