首页 百科大全文章正文

GitHub 超 16,000 Star!开源大模型推理框架 SGLang 中国首场 Workshop 来啦,GOSIM一起相约

百科大全 2025年08月08日 13:50 1 admin

责编 | 唐小引 Echo Tang

亲爱的开发者们,大模型领域最著名、热度最高、DeepSeek 推荐使用的开源推理引擎之一——SGLang 在国内的首场 Workshop 线下活动来啦!

9 月 13-14 日,由 GOSIM 全球开源创新汇主办、CSDN 承办的 GOSIM HANGZHOU 2025 将在杭州白金汉爵大酒店(西湖区)正式举行。在此次大会上,SGLang Workshop 将与大家一起见面。

作为高效的开源大规模 LLM 服务框架,SGLang 在过去一年里经历了快速的迭代和发展。本次 Workshop 希望能够和大家在线下面对面深入交流,帮助大家更好地使用 SGLang。为此特别邀请到了多位 SGLang 的开发者,将深入分享 SGLang 的核心功能的特点,及其背后的设计思路和取舍。同时阿里通义千问 Qwen、科大讯飞的同学将分享他们内部的应用实践,希望能够给工业界正在或想要应用 SGLang 的听众一些启发,探索出自己业务场景下使用 SGLang 的最优方案。

大会官网https://hangzhou2025.gosim.org/

GitHub 超 16,000 Star!开源大模型推理框架 SGLang 中国首场 Workshop 来啦,GOSIM一起相约

议题及嘉宾详情

《SGLang:一个高效的开源大规模 LLM 服务框架》

SGLang 是一个高效的开源大规模 LLM 服务框架。在过去的一年中,SGLang 经历了快速的迭代和发展,本次 Talk 将概括性地介绍 SGLang 的核心特性,主要包括:KV Cache 复用、Zero-overhead 批调度、投机采样、Prefill & Decode 分离和大规模专家并行。

核心特性:

  • 基于 RadixAttention 的高效 KV Cache 复用

张懿,SGLang Committer

GitHub 超 16,000 Star!开源大模型推理框架 SGLang 中国首场 Workshop 来啦,GOSIM一起相约

张懿,阿里云的研发工程师,SGLang Team 的成员之一,目前主要关注构建高性能的 LLM/VLM 推理引擎。

《SGLang 与 Mooncake 的预填充/解码解耦方案》

大语言模型的推理过程包含两个截然不同的阶段:预填充(Prefill)和解码(Decode)。其中,预填充阶段属于计算密集型任务,负责处理整个输入序列;而解码阶段属于访存密集型任务,需管理 token 生成过程中所需的键值(KV)缓存。传统方法通常将这两个阶段统一在同一个引擎内调度处理,导致预填充批次和解码批次调度互相干扰,引入效率损失。

为解决上述问题,我们在 SGLang 中引入了预填充与解码解耦(Prefill and Decode Disaggregation,简称 PD 分离)方案,在互不干扰的同时也使得每个阶段可以分别进行针对性的优化。本次演讲将详细介绍 Mooncake 后端的具体实现,这是 SGLang 首个集成且默认的 PD 分离后端。除了简述整体流程,本次演讲还将详细介绍 PD 分离如何与 DP attention 和 MTP 等特性协同工作,以及如何支持预填充与解码阶段采用不同的张量并行(TP)策略。此外,还将介绍我们为了确保在生产环境下稳定运行,在 PD 节点容错和伸缩方面所做的一些工作。

蔡尚铭,Mooncake Core Member / SGLang Committer

GitHub 超 16,000 Star!开源大模型推理框架 SGLang 中国首场 Workshop 来啦,GOSIM一起相约

蔡尚铭于 2022 年在清华大学计算机科学与技术系获得计算机科学博士学位。目前,他是阿里云飞天实验室的工程师和研究员,并积极参与 SGLang、Mooncake、vLLM 等开源大语言模型项目的研发。他的主要研究兴趣包括分布式机器学习训练、大语言模型、高效推理服务系统以及大数据分析。

《讯飞 MaaS 平台大模型高性能推理实践》

讯飞基于开源引擎结合自身推理服务框架在 PD 分离上的相关技术介绍。

杨彦波,SGLang Committer

GitHub 超 16,000 Star!开源大模型推理框架 SGLang 中国首场 Workshop 来啦,GOSIM一起相约

现任职于科大讯飞,负责 MaaS 平台的研发工作。

《和 SGLang 一起思考 :推理赋能强化学习时代的模型训练》

通过强化学习(RL)和测试时扩展(TTS)来优化大语言模型(LLM)的输出,已成为当前趋势,这也使得高效的推理引擎成为了模型训练中前所未有重要的一环。本次演讲将介绍 SGLang 在强化学习场景下的最新进展及社区应用情况。

林骏荣,SGLang Committer、Qwen 团队成员

GitHub 超 16,000 Star!开源大模型推理框架 SGLang 中国首场 Workshop 来啦,GOSIM一起相约

林骏荣,通义千问(Qwen)后训练团队工程师。参与 SGLang、verl 等社区大语言模型开源项目的研发。

《SpecForge:用于训练推测式解码模型的开源框架》

推测式解码(Speculative Decoding)是一种能够显著加速大语言模型(LLM)推理的强大技术。本次演讲将首次宣布开源 SpecForge 框架——一种基于 Eagle3 的推测式解码模型训练新框架。SpecForge 专为易用性设计,并与 SGLang 推理引擎紧密集成,实现从训练到部署的无缝衔接。

首先,我将介绍什么是推测式解码,以及它如何帮助加速 LLM 推理过程;其次,我将介绍当前领先的推测式解码方法——EAGLE;接下来,我会详细介绍 SpecForge 框架的架构,包括在线训练模式和离线训练模式;最后,我将分享通过 SpecForge 训练的模型的实验效果。

此议题由以下两位演讲者共同分享:

朱熠恺,SGLang Committer

GitHub 超 16,000 Star!开源大模型推理框架 SGLang 中国首场 Workshop 来啦,GOSIM一起相约

现任 SGLang 项目提交者。

王超,SGLang Committer

GitHub 超 16,000 Star!开源大模型推理框架 SGLang 中国首场 Workshop 来啦,GOSIM一起相约

王超,美团软件工程师,专注于利用 TensorFlow/TensorRT 进行点击率(CTR)模型的 GPU 推理,以及利用 PyTorch 进行大语言模型(LLMs)的 GPU 推理。此前曾任职于腾讯。

《Qwen 团队在大模型推理中算法-系统联合优化实践》

曹逸中,Qwen 团队成员

GitHub 超 16,000 Star!开源大模型推理框架 SGLang 中国首场 Workshop 来啦,GOSIM一起相约

曹逸中,通义千问(Qwen)推理团队工程师。

欢迎大家在金秋 9 月一起相聚杭州,西子湖畔,我们等你共赴一场关于“开源、协作与未来”的技术盛会!

9 月 13- 14 日,GOSIM HANGZHOU 2025

1500 + 全球一线开源开发者

100 + 海内外资深专家

100 +优质技术分享

5 大技术论坛

9 场主题 Workshop

3 场 Hackathon 创新竞赛

1 场 GOSIM AI for Humanity Spotlight

特别联动 Rust 十周年精彩活动 RustGlobal + RustChinaConf

大咖云集,内容丰富

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动