畴前二十多年麻豆 夏雨荷,筹备性能的陶冶受益于摩尔定律的膨胀,性能增长达到了60000倍,如图1所示。然则,归拢时期内,I/O带宽仅增长了30倍。当下,怎样将高带宽互连膨胀到单个机架以外是NVIDIA以过火他厂商齐濒临的势必挑战。
据行业分析公司LightCounting的分析指出:将 GPU集群从36-72个芯片膨胀到500-1000个芯片是加速东谈主工智能查验的最好弃取;在将来3年内,即使是推理集群也可能需要多达 1,000 个GPU才能支握更大的模子。共封装光学器件(CPO,Co-Packaged Optics)可能是在4-8机架系统中提供数万个高速互连器件的惟一弃取。
图1:不同代际互连和存储的带宽(BW)以及硬件(HW)峰值FLOPS的膨胀。值得真贵的是,互连带宽增长的速率远低于硬件FLOPS。(着手:IBM论文,arXiv:2412.06570)
面前,数据中心在数据传输中已世俗依赖光学期间,但关于短至中长距离(< 2米)的互连一语气,光学期间的应用仍较少。天然传统的可插拔光学可动作过渡期间,但其带宽增长速率远低于数据中心流量的增长速率,应用需乞降传统可插拔光学期间智力之间的差距不停加大,这一趋势是不能握续的。
共封装光学(CPO)动作一种颠覆性期间,通过先进的封装期间和电子光子协同优化,极地面裁汰电气一语气旅途,从而提高互连带宽密度和能效。因而,CPO也被誉为AI时期的要津互连期间之一。LightCounting首创东谈主兼首席实行官Vlad Kozlov知道:
“咱们预测,到 2029 年,CPO端口出货量将从面前的不到5万个增长到越过1800万个,其中大多数端口将用于做事器内的一语气。”
图2:1.6T线缆类和1.6T 50m CPO端口的发货量(图源:LightCounting)
而从博通、Marvell、IBM等各家厂商在CPO领域的最新进展来看,CPO将迎来云厂商的快速聘请和部署的海浪。
博通CPO,营业化加速2024年12月30日,据经济日报的报谈,台积电硅光策略取得首要进展,近期杀青共封装光学元件(CPO)与先进半导体封装期间的整合,瞻望2025岁首启动样品委派,博通和NVIDIA将成为台积电该料理决议的首批客户。
报谈中指出,台积电与博通汇注开辟的微环调制器(MRM)近期已通过3nm试产,为顶级AI芯片集成到CPO模块奠定基础,瞻望台积电将聘请其CoWoS或SoIC先进封装。此举也阐明CPO期间已从研发阶段向量产化迈进,1.6T光传输时期正加速到来。
旧年3月份,博通已向小部分客户委派了业界首款 51.2 兆兆位/秒 (Tbps) 共封装光学 (CPO) 以太网交换机 Bailly。该家具集成了八个基于硅光子的 6.4-Tbps 光学引擎和 Broadcom 一流的 StrataXGS Tomahawk5 交换机芯片。与可插拔收发器料理决议比拟,Bailly 使光学互连的运行功耗逼迫了70%,硅面积服从提高了8倍。
图3:51.2T Tomahawk 5交换机,配备8个Bailly光学引擎(图源:broadcom)
跟着台积电的强势参与,为CPO期间注入了确实赖的供应链智力,并可能助推博通CPO决议在市荟萃加速引申,为芯片与光学期间的会通提供强有劲的撑握。
Marvell:XPU架构赋闲整合CPOMarvell在收购Inphi之后,大大增强了在光通讯和数据中心领域的研发智力。自2017年以来,Marvell启动为群众顶级超大鸿沟数据中心提供硅光子成立,并成效将其应用于COLORZ数据中心互连光学模块。这一期间已得回多个行业泉源的数据中心认证,并杀青大鸿沟分娩。截止面前,Marvell的硅光成立已累计记载越过100亿小时的现场运行时候。
动作硅光期间发展的下一步,Marvell正要点布局共封装光学(CPO)期间,这是公司鄙人一代互连期间发展中的要津一步。
2025年1月6日,Marvell布告,其下一代定制XPU架构将聘请共封装光学 (CPO) 期间。CPO期间使得AI做事器的鸿沟从面前使用铜互连的机架内数十个XPU膨胀到使用CPO 的多个机架中的数百个XPU,这意味着AI做事器的筹备智力不错在更大范围内得到陶冶,同期保握低延迟和高效的能耗进展。
Marvell指出,下一代定制AI加速器XPU架构使用高速 SerDes、die-to-die芯片接口和先进封装期间,将 XPU筹备芯片、HBM和其他芯片与Marvell 3D SiPho引擎整合在归拢基板上。这种模式无需电信号离开XPU封装干预铜缆或穿过印刷电路板。
CPO应用高带宽硅光子光学引擎来提高数据模糊量,与传统铜一语气比拟,硅光子光学引擎可提供更高的数据传输速率,况且不易受到电磁侵扰。这种集成还通过减少对高功率电气驱动器、中继器和重定时器的需求来提高电源服从。
早在2024年,Marvell就展示了群众首款3D SiPho引擎——一个集成度极高的光学引擎,支握200Gbps的电气和光学接口。
而Marvell 6.4T 3D SiPho 引擎是一款高度集成的光学引擎,具有 32 个 200G 电气和光学接口通谈、数百个组件(举例调制器、光电探伤器、调制器驱动器、跨阻放大器、微适度器)以及无数其他无源组件,这些组件集成在一个调处的成立中,与具有 100G 电气和光学接口的同类成立比拟,可提供 2 倍的带宽、2 倍的输入/输出带宽密度和 30% 的每比特功耗逼迫。多家客户正在评估该期间,以将其集成到其下一代料理决议中。
图3:使用CPO的下一代定制AI加速器XPU(图源:marvell)
借助集成光学器件,XPU 之间的一语气不错杀青更快的数据传输速率和比电缆长100 倍的距离。这不错在 AI 做事器内杀青跨多个机架的膨胀一语气,并具有最好延迟和功耗。通过杀青更长距离和更高密度的 XPU 到 XPU 一语气,CPO 期间促进了高性能、高容量膨胀 AI 做事器的开辟,从而优化了下一代加速基础设施的筹备性能和功耗。
Marvell的这次布告无疑明示出CPO也曾逐步被XPU厂商招供。要知谈,Marvell前不久才与群众云霄做事供应商龙头亚马逊AWS签署五年互助契约,供应亚马逊AWS客制化AI芯片。跟着Marvell AI定制化芯片整合CPO措施的加速,瞻望CPO的应用和部署将大大提速。
IBM:新工艺冲破加速CPO杀青尽管硅光子学并不是一个新办法,但需要开辟先进的制造工艺和器件结构,以缓和CPO的需求。连年来,CPO料理决议逐步兴起。尽管如斯,CPO的世俗应用仍濒临许多挑战,而增多光纤集成密度可能是股东市集袭取的一个法度。
近日,IBM布告,其商量东谈主员草创了一种新式的共封装光学(CPO)工艺,全新的共封装光学 (CPO) 原型将通过使用团聚物材料来率领光学而不是传统的基于玻璃的光纤。IBM 的论文空洞了这些新的高带宽密度光学结构怎样与每个光通谈传输多个波长相联接,有可能将芯片之间的带宽提高到电气一语气的 80 倍。
在IBM的期间商量论文《Next generation Co-Packaged Optics Technology to Train & Run Generative AI Models in Data Centers and Other Computing Applications,下一代共封装光学期间用于在数据中心和其他筹备应用中查验和运行生成式AI模子》中呈报了成效盘算和制造基于50微米间距团聚物波导接口的光学模块,这些模块经过集成优化,大概杀青低损耗、高密度的光数据传输,并在硅光子芯片上占据极小的空间。
该原型模块适合JEDEC可靠性圭臬,承诺将芯片旯旮可一语气的光纤数目——即所谓的“海滨密度”——提高六倍,越过了现时起先进期间的水平。团聚物波导的可膨胀性,使其大概削弱至小于20微米的间距,瞻望将使带宽密度陶冶至10 Tbps/mm以上。
色情艺术中心图4展示了光学测试载体的初步知道图,包括测试载体组件的顶部视图和侧视图,并展示了拼装集成。
图中,PIC芯片尺寸为8 x 10 mm²,基板尺寸为17 x 17 mm²,光波导长度小于12 mm。图4还展示了基板(绿色)、PIC(灰色)、光波导(红色)、光纤一语气器(深灰色)、PIC到PWG的绝热耦合区(无凸点区)、翻转芯片凸点阵列(小的铜色球体)、袖珍BGA阵列(大的铜色球体)以及盖板(顶部视图为透明局面,截面为铜块局面)的堆叠视图(左)和横截面视图(右)。
图4:IBM CPO模块测试载体(着手:IBM论文,arXiv:2412.06570)
图5:IBM 光学测试载体1b的像片,左图为PIC到基板的拼装顶部视图,右图为泄露基板的底部视图,基板上装配有袖珍BGA,PIC和盖板附加在顶部,PWG一语气在PIC上,盖板一语气在光纤一语气器上,动作模块拼装的临了法度。(图源:IBM)
左证Weight&Biases的报谈,在使用GPU查验时,蚁集频频成为瓶颈,导致三分之一的用户平均应用率不及15%。这无疑增多了资本和能耗。关于参数越过十亿的模子,在8000个H100 GPU上查验大致需要3个月。
左证估算,查验一个GPT-4模子可能虚耗50千兆瓦时的电力。此外,国外动力署(IEA)筹备出,2022年数据中心虚耗了460太瓦时的电力,占群众电力需求的近2%,瞻望这一数字到2026年将翻倍。
而IBM的全新的CPO工艺期间有望权臣提高数据中心通讯的带宽,减少GPU昂扬时候,同期大幅加速AI处理历程。左证这一改进商量,将来CPO期间可带来如下后果:
更低的生成式AI膨胀资本:比拟中等距离电气互连,CPO可减少越过5倍的能耗,同期将数据中心互连电缆的传输距离从一米蔓延至数百米。
更快的AI模子查验:通过CPO,开辟者大概将大型说话模子(LLM)的查验速率提高至惯例电气默契的五倍,瞻望查验一个圭臬LLM的时候可从三个月裁汰至三周,性能陶冶会跟着使用更大模子和更多GPU而进一步增强。
权臣提高数据中心能效:每查验一个AI模子,CPO期间将简略相配于5,000户好意思国度庭年用电量的能量。
IBM还在用功开辟下一代测试载体,聘请子20 µm间距的光波导、增多的波导通谈、增多的多波长(λ)兼容硬件演示,并提供多个档次的光纤一语气器/一语气器拼装选项,适用于CPO模块。针对这一将来节能硬件演示的建模和仿真标明,该期间大概支握更高的带宽密度。
借助纠正的动力服从,陶冶将来生成性AI应用和其他筹备应用的性能已成为可能,令东谈主清翠地股东这一程度。IBM筹办在2025岁首发布更多严防的CPO信息。
结语畴前许多东谈主对CPO的期间和营业化存疑,但看当今大厂们的动作,CPO已成AI时期的势在必行。与此同期,CPO与可插拔光模块的竞争相关更可能是互补而非完竣取代。CPO期间的崛起不会立即要挟到可插拔光模块的主流地位,而是会在特定高性能场景中从容占据立锥之地。
从恒久来看,CPO和Optical IO齐可能在股东数据中心光互联期间的升级中明白伏击作用。
本文着手:半导体行业不雅察麻豆 夏雨荷,原文标题:《三大芯片巨头,抢进CPO》
风险教导及免责要求 市集有风险,投资需严慎。本文不组成个东谈主投资提议,也未商量到个别用户突出的投资宗旨、财务情景或需要。用户应试虑本文中的任何意见、不雅点或论断是否适合其特定情景。据此投资,包袱痛快。