近日, CIOE中国光博会与C114通信网联合举办的“2024中国光通信高质量发展论坛”第四场——“AI时代:数据中心光互联技术新趋势”线上研讨会顺利召开。
阿里云光网络技术专家陈钦应邀作了题为《AI网络对光互联的需求和挑战》的主题演讲。陈钦表示,AI应用带来了海量的光模块需求,未来GPU间的scale-up网络将持续推高光模块的需求,同时AI也催化了光模块更新迭代的速度,对光模块的稳定性要求也进一步提高,AI对光模块也带来巨大的挑战。
AI发展带来海量光模块新增需求
当前,随着AI和算力发展,作为数据中心内部以及数据中心之间连接的重要技术,光模块产业快速崛起迎来高速发展时期,其速率和带宽的提升对于满足AI时代数据传输的需求至关重要,AI网络建设带来海量的光模块需求。
如何量化AI对光模块的需求,陈钦介绍,在通用计算网络中可以通过接入的服务器数量来获得光模块的需求量;同理在AI网络中,可以通过GPU卡数量来推测光模块的用量。
当前AI网络中,GPU卡和800G光模块数量的比例约为1:3,未来,Scale-up GPU网络(compute Fabric)将带来更多的光互联需求,光模块的需求和光模块的成本支出在AI集群中占比将大幅上升。
AI催化光模块技术演进:光模块迭代周期缩减一倍
回顾过去10年数据中心光模块演进历程,交换芯片的容量遵循每两年翻一倍的规律,而这是通过Serdes 数量和Serdes 速率,每两年交替的翻倍来达到的。
Serdes单通道速率和光模块单波长速率实际上是每4年翻一倍,主流光模块每4年更新一代。
AI的应用催化了光互联的演进速率,光模块从原本每4年更新一代,缩短为每2年更新一代,新一代光模块研发到落地的周期将要求被大幅缩短,这个变化对于整个光模块生态而言都是一个极大的挑战。
AI网络对光互联稳定性提出两方面挑战
陈钦表示AI大模型训练对光互联的稳定性要求极高,当前AI网络稳定性的挑战主要来自两方面。
一方面是光模块硬件,主要是光器件失效引起的,包括激光器和探测器失效。陈钦介绍,光器件的Wear-out失效不是问题,早期失效和随机失效才是关键。当前的行业标准GR468对光模块和光芯片的测试标准太松,并不适用于AI网络。鉴于此,阿里云对光器件的可靠性提出了更为严格的标准。
另一方面是光模块软件,高速光模块普遍使用CMIS管理协议,带来了强大的功能,但也使系统设备和模块的交互变得更复杂。对此陈钦建议,光模块厂家应加强光模块在各系统设备上的集成适配测试。
AI网络下光模块功耗挑战:TRO技术成为发展新方向
2018年 PAM4 DSP在光模块中出现,光的功耗开始超过电的功耗,成为网络中功耗占比最高的部分,到1.6T/3.2T光模块,数据中心将需要新的技术处理功耗问题,例如液冷技术。功耗的变化,将会给AI基础设施带来极大的技术挑战。
那么应该如何降低光模块的功耗,陈钦表示最直接的手段就是去掉或减少DSP在光模块内部的使用,也就是被讨论的技术热点:LPO、TRO、CPO技术。
CPO光和交换芯片共封装融为一体,是一种完全封闭的生态,它不符合数据中心开放解耦的要求,也无法做到“pay as your growth”,此外CPO的运维也面临重重挑战,所以CPO只有在可插拔光模块演进不下去时才会被考虑。
LPO方案是完全去掉DSP,在功耗、成本和时延上有很大优势。但在标准化和互联互通方面仍具有很大挑战。若LPO无法做到互联互通,便不符合数据中心对开放解耦的要求。此外,LPO技术到单波200G是否可持续也有较大争论,综合来看,LPO技术落地的挑战性较大。
TRO去掉一半DSP,是一种折中的技术方案,它也能够有效降低功耗,得益于ASIC Serdes接收端强大的均衡能力,TRO的链路性能可以得到保证,另外TRO也更容易制定标准和互联互通,符合数据中心对开放解耦的要求,“TRO是一个非常有潜力的下一代光互联技术方案”,陈钦表示。
参考资料:
CIOE
举办地区:广东
展会日期:2024年09月11日-2024年09月13日
开闭馆时间:09:00-18:00
举办地址:深圳市宝安区福海街道和平社区展城路1号
展览面积:240000
观众数量:100000
举办周期:1年1届
主办单位:中国科学技术协会