首页 游戏天地文章正文

科学家研发突破性光学张量处理器,用于AI模型训练和实时决策等

游戏天地 2025年07月27日 17:21 1 admin

最近,美国加州大学伯克利分校陈在俊助理教授团队与合作者基于超多路复用集成光子学,开发了一种光学张量处理器(HITOP,Hypermultiplexed Integrated Tensor Optical Processor),运算速度达每秒数万亿次,吞吐量达 0.98TOPS,可应对多数 AI 应用需求。


这一架构的核心创新在于其独特的空间、时间和波长三维光学并行计算策略:通过在时间域和波长域同时复用计算任务,HITOP 仅需 O(N)个片上电光调制器即可实现 O(N²)级别的计算吞吐量,从而在硬件资源利用效率上实现了质的飞跃。与传统电子计算架构相比,HITOP 展现出显著的能效优势,其单位操作能耗可降低超过 100 倍。


值得注意的是,HITOP 通过引入时间积分器这一创新设计,巧妙地规避了传统光学计算系统对高速高精度模数转换器(ADC,analog-to-digital converters)的依赖。这一设计不仅大幅简化了输出电路结构,还显著降低了系统整体能耗,解决了长期制约光学计算系统性能的关键瓶颈问题。



科学家研发突破性光学张量处理器,用于AI模型训练和实时决策等

图丨陈在俊团队(来源:陈在俊)


从实现的性能方面来看,该系统在 10GS/s 的高数据速率下仍能保持 5-6 位的计算精度(计算误差约 2.9%),可满足图像识别等多数 AI 任务对大规模矩阵运算的需求。实测数据显示,HITOP 在处理大规模矩阵运算时的单位操作能耗仅为 18 飞焦耳,这一数值比当前先进的电子计算系统(如 NVIDIA H100 GPU)低一个数量级以上。


此外,HITOP 的芯片面积效率达到 17.5GOPS/mm²,意味着在相同芯片面积下可完成更多计算任务,显著提升了硬件资源利用率。这项研究不仅解决了光学计算系统的可扩展性问题,更为 AI 和高性能计算领域提供了一种极具潜力的全新硬件实现方案。


日前,相关论文以《基于光子学的超多路复用集成光学张量处理器》(Hypermultiplexed integrated photonics–based optical tensor processor)为题发表在 Science Advances[1]。美国南加州大学硕士毕业生欧绍元、加州大学伯克利分校博士生薛凯文是主要作者,陈在俊担任通讯作者。



科学家研发突破性光学张量处理器,用于AI模型训练和实时决策等

图丨相关论文(来源:Science Advances)




科学家研发突破性光学张量处理器,用于AI模型训练和实时决策等

多维信号处理机制:将乘法运算从“矩阵与向量”升级为“矩阵与矩阵”


传统电子计算硬件(如 GPU、TPU)在处理大规模 AI 模型时,正面临能耗高、计算效率低的突出瓶颈。这一问题的根源在于电子架构的物理限制:电信号在铜线中传输时会因电阻产生显著损耗,同时电子器件的时钟频率提升空间有限,导致数据吞吐量受限。


若以交通系统作类比,传统电子架构就像平面交叉的单车道道路,数据信号如同密集的车流,极易因带宽不足而引发“拥堵”。相比之下,光子计算则展现出显著优势——其利用光波导传输信号,不仅避免了电阻损耗,还能通过多波长复用实现并行光路,如同立体交通枢纽中的多层立交桥,可同时容纳更多“车辆”高速通行。


光学模拟计算的研究渊源可追溯至 20 世纪中叶,当时已有科学家提出利用空间光路构建傅里叶变换计算器的方案。然而,受限于早期光学器件的集成度与调控精度,该技术长期未能实现规模化应用。直至近年,随着集成光子学技术的突破性进展,与此同时,摩尔定律在电子器件领域逐渐逼近物理极限,光子计算才因其低能耗、高吞吐的特性重获学界与产业界的广泛关注。


近年来,众多高校和研究机构陆续提出了多种光学计算架构,并在机器学习、图形处理等领域展示了其大规模部署的可行性。然而,随着系统中光学调制器数量的急剧增加,微纳加工技术面临巨大挑战,同时光学损耗也限制了波导路径的可扩展性。


更深层次的矛盾存在于系统级优化层面。虽然电光调制器已能实现皮秒级响应速度,但后端 ADC 的性能却成为整体算力的短板。现有技术中,维持高采样率与高量化精度的 ADC 往往需消耗数十皮焦每转换步的能耗,这与光计算单元飞焦级每操作的能耗形成巨大落差,导致系统能效优势被部分抵消。


此外,当前多数光计算架构仍模仿电子计算的“存内计算”范式,却忽略了二者在物理尺度上的本质差异:光学器件因受限于衍射极限,功能单元尺寸通常在百微米至毫米量级,而现代电子晶体管已缩至纳米尺度。这种数量级的尺寸差异使得光学系统在集成密度上难以与电子芯片抗衡,也暴露出光子计算在有效缩放路线上的核心挑战。



科学家研发突破性光学张量处理器,用于AI模型训练和实时决策等

图丨 HITOP 概念示意图(来源:Science Advances)


针对上述瓶颈,研究团队提出了全新的光计算芯片架构,其核心创新体现在系统架构设计层面。他们提出了“时间维度承载计算”的新范式:首先将数据编码在时间序列上,再以时间维度作为桥梁,与波长维度和空间维度实现协同计算。通过多维度协同计算策略,为光学模拟计算提供了一种新的解决思路。


其突破在于:传统光学计算实现 1000×1000 矩阵运算需要 100 万个调制器(O(N²)规模),而 HITOP 架构仅需 1000-2000 个调制器(O(N)规模),这相当于将硬件复杂度降低了三个数量级。


这种多维信号处理机制使得系统能够直接完成矩阵与矩阵的乘法运算,而传统电子芯片通常仅能实现矩阵与向量的乘法运算。陈在俊对 DeepTech 表示:“这种突破性的计算能力源于光信号在时间、波长和空间三个维度的并行处理特性,这是电子计算架构难以实现的独特优势。”



科学家研发突破性光学张量处理器,用于AI模型训练和实时决策等

图丨 HITOP 芯片架构(来源:Science Advances)


在材料选择方面,研究团队与加州大学伯克利分校喻梦洁助理教授、香港城市大学王骋副教授实验室合作,采用了具有优异电光特性的薄膜铌酸锂(TFLN,Thin-Film Lithium Niobate)作为光学计算平台。该材料具备优异的电光特性,其较低的半波电压(Vπ)显著降低了电光转换过程中的能耗,为实现高效、低功耗的光学计算系统提供了基础。



科学家研发突破性光学张量处理器,用于AI模型训练和实时决策等

应用场景:从数据中心模型训练到终端设备模型部署


陈在俊在德国马克斯普朗克量子光学研究所和德国慕尼黑大学获得博士学位,导师为诺贝尔物理学奖获得者特奥多尔·W·亨施(Theodor W. Hänsch),之后分别在马克斯普朗克量子光学研究所和美国麻省理工学院迪尔克·英格伦(Dirk Englund)教授团队从事博士后研究工作(DeepTech 此前报道:MIT团队开发新型AI光子计算芯片,实现计算效率提高100倍)。


目前,陈在俊在加州大学伯克利分校成立了独立实验室,其研究方向主要聚焦于光计算技术及其应用的创新,研究内容涵盖量子光学、压缩态光子学和光学传感技术等多个前沿领域。


近期,团队正在开展存算一体化的新型光学传感器方向研究,并探索量子增强传感技术在自动驾驶等实际场景中的应用。此外,团队还致力于将人工智能与量子光学方法相结合,以实现分子和原子尺度的高精度测量。


该研究历时两年,始于陈在俊实验室刚成立之际。研究的核心挑战主要集中在如何确保长时间、高速光学计算过程中的测量精度与系统稳定性。


在软件架构层面,研究团队采用任意波形发生器对光学系统作为精确控制核心,通过高精度时序同步实现光学计算单元的数据采集与处理,并与计算机系统协同工作,成功实现了卷积神经网络(CNN,Convolutional Neural Network)的运行。


在硬件测量方面,III/V 族半导体垂直腔面发射激光器(VCSEL,vertical-cavity surface-emitting laser)与薄膜铌酸锂集成芯片之间的时序校准问题尤为关键,对实现高速测量的计算精度提出了严峻挑战。


从计算原理来看,矩阵乘法运算(N×N 矩阵乘以 N×N 矩阵)的本质是,要求第一个矩阵中的所有行向量都必须与第二个矩阵中的所有列向量完成点积运算。


在这个过程中,光学计算的独特优势得以充分展现:系统可以在计算框架内实现天然的并行运算,并通过波长复用技术将不同计算任务在光学域进行有效分离。例如,当一个向量(维度为 1×N)乘以一个矩阵(维度为 N×N)时,传统电子计算需要将该向量复制 N 次,然后分别与矩阵的每一列进行运算。


虽然从数学表达式看这个过程相对简单,但在硬件实现层面却异常复杂。研究团队通过光学手段巧妙地解决了这一难题——利用光的波动特性自然地完成向量复制过程,这种基于波场的并行数据传输机制是电子计算难以达到的。


此外,他们所使用的计算元件都非常简单。陈在俊解释说道:“我们最终的目标是从简单的计算单元开发出高算力、低能耗的光学计算系统,解决光学可扩展性。”


因此,他们选择从最基础的光学组件着手来构建系统。例如,仅需让激光束依次通过两个调制器就能实现乘法运算:第一个调制器完成 A 系数调制,第二个完成 B 系数调制,经过两次调制后的输出光强即对应 A×B 的结果。通过这种简洁而高效的乘法单元,研究团队成功构建起三维计算架构,并利用光学复制原理实现了前所未有的计算效率。



科学家研发突破性光学张量处理器,用于AI模型训练和实时决策等

图丨 HITOP 实验装置与器件平台(来源:Science Advances)


在应用前景方面,这项技术直指当前 AI 算力发展的核心瓶颈,其应用场景涵盖从数据中心模型训练、边缘实时决策、终端设备模型部署、气候模拟等场景。以自动驾驶为例,现代智能汽车通常搭载多个计算芯片,其中 30-40% 的整车能耗都消耗在计算任务上。这种低能耗、高算力的光学计算技术有望显著提升终端设备的能效比。


实际上,AI 的发展水平在很大程度上受限于芯片性能,而光学计算的突破可能彻底改变这一局面。当算力得到质的提升后,此前受限于能耗和芯片效率的诸多技术瓶颈有望迎刃而解,更大规模的模型训练将成为可能。


该研究中的实验数据显示,HITOP 系统在图像分类任务中表现出色,而所需的模型参数量仅约 40 万。其中,在单层网络(28×28→10)架构下,78.4ns 内完成图像处理,分类准确率达 97%;在更复杂的三层网络(28×28→100→10)Fashion MNIST 分类中,准确率保持 91.8%。


这自然引出一个关键问题:该技术能否支撑 GPT 级别的超大规模模型训练?陈在俊指出,当系统规模扩展到 300×300 通道时,单个光学芯片的计算能力将相当于多个 GPU 的并行组合,届时完全具备训练大模型的硬件条件。


尽管当前的原型系统规模有限,但技术路线已经展现出巨大的发展潜力。特别值得一提的是,在实时性要求极高的自动驾驶场景中,现有系统需要 1 毫秒的反应时间,而 HITOP 已实现 100 纳秒的极低延迟。可以预见,随着系统规模的持续扩大,这项技术可能在自动驾驶等对实时性和能效要求严苛的领域发挥重要作用。



科学家研发突破性光学张量处理器,用于AI模型训练和实时决策等

图丨在 10GS/s 下对 HITOP 计算精度进行实验验证(来源:Science Advances)


现在,陈在俊正带领团队重点攻克光计算系统的相关技术难题并推进工程化。其首要目标是提升激光器的波长稳定性,通过优化系统架构将计算规模扩展到 300×300,同时增加波长和通道数量。尽管现有的硅光技术理论上支持这一规模,但在实际实现过程中仍面临诸多技术挑战。


他表示:“实现 300×300 的系统规模后,计算能力预计将达到 4000TOPS(每秒 4000 万亿次运算),这一性能将显著超越当前主流的 NVIDIA GB200。”随着先进封装工艺的持续发展和系统集成度的不断提高,时序校准等关键技术难题将逐步得到解决,进而为光学计算系统的大规模商业化应用奠定坚实基础。


参考资料:

1.Ou,S. et al. Hypermultiplexed integrated photonics–based optical

tensor processor. Science Advances 11, eadu0228(2025). https://www.science.org/doi/10.1126/sciadv.adu0228


排版:刘雅坤

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动