飞象网讯 (计育青/文)产业跟信息化部克日印发告诉,为夯实算力收集开展底座,放慢翻新技巧跟产物利用,决议正式发展算力强基揭榜举动(简称“揭榜举动”)。此次揭榜举动面向算力收集的盘算、存储、收集、利用、绿色、保险等六年夜重点偏向提出了二十一项义务,基础上涵盖了算力全工业链的要害技巧及开展偏向,并对每一个名目都做了具体的义务、目的阐明。(起源:工信部官网)在收集环节,揭榜举动重点支撑高机能数据处置器(DPU)、基于RoCE的智算收集、光交流智算收集技巧研讨与验证、面向散布式智算核心的收集要害技巧研讨与验证等。预期目的上揭榜举动请求到2026年,实现支撑智算集群的易操纵、高牢靠、可腻滑过渡进级的光收集,支撑人工智能等要害营业承载;光交流装备单端口速度支撑100GE/400GE/800GE,交流容量弹性可扩大等。同时,冲破智算核心间超年夜容量、超高牢靠收集传输要害技巧,研制面向智算核心间收集的传输装备,支持散布式智算核心间营业的高牢靠传输。(起源:工信部官网)算力建立高潮涌动,收集需适度超前比年来寰球人工智能技巧开展迅猛,各都城十分器重基本年夜模子、AI利用的开辟与建立,视之为决议工业经济进级、国度竞争力晋升的要害要素。中国也十分器重AI技巧及其利用的开展,先后宣布了一系列政策予以推进跟激励,使得海内年夜模子技巧跟利用一直位居寰球当先位置。从千亿、万亿参数基本年夜模子的开辟,到面向详细行业、现实场景的AI利用孵化,都发生了宏大的智能算力需要,极年夜推进了海内智算基本设备的建立。据统计,以后海内已投用了近百个智算核心,可用算力已濒临万PFlops。而DeepSeek突飞大进的开展,使其成为寰球景象级年夜模子,从科技、医药、传媒到政务、金融、汽车等,DeepSeek的“圈子”仍在连续扩大中。微信等头部APP接入DeepSeek后能够看到,公民级利用模子应用连续缩小算力需要,进而带来推理等算力需要的大批增加,智算行业迎来主要开展机会。海内通讯经营商也在一直加年夜对智算基本设备的投入。比方中国电信正在打造多档次智算格式,在京津冀、长三角地域建立了两个万卡智算集群,同时还在西部地域打造年夜范围绿色智算池;中国挪动的举措也很快,已建成8.2EFLOPS通用算力、19.6EFLOPS智算才能,散布在京津冀、长三角、粤港澳年夜湾区、成渝等地区的首批13个智算核心节点曾经投用;中国联通计划的算力核心系统笼罩了国度8年夜枢纽节点跟31个省市,数据核心机架的总体范围将超越40万架,将来将建成主干云池都会230多个、MEC节点超越600个。跟着智算基本设备的范围建立跟年夜范畴利用,传统的收集架构跟装备匆匆难以满意请求,包含端口密度、功耗、机动扩大才能、毛病冗余才能,以及带宽、时延、牢靠性等等,都急切须要针对智算集群停止深度翻新,这也是此次揭榜举动中义务十、义务十一的重要目的。针对这些成绩,通讯行业曾经有充足的技巧跟产物贮备,而且在局部场景下停止了实际验证。全光交流OXC技巧破解智算集群腻滑演进困难以后智算集群收集重要采取纯电层交流机组网形式,算卡与算卡之间经由过程交流机来衔接。个别数据核心采取这种组网形式不会碰到什么成绩,然而智算练习纷歧样,跟着年夜模子一直改良跟更新,对算卡的需要会从多少千、多少万个敏捷走向数十万、上百万个,每次智算范围增添都须要对数据核心收集停止重构,本钱高且周期长。另一方面,集群范围的一直增添会引入更多的框式交流机,这些交流机遇进一步减轻智算核心的能耗累赘。跟着算卡的增添,衔接算卡所需的光模块也会更多,这些光模块一旦产生毛病就会影响到全部数据核心的数据处置跟传输才能,进而直接影响到AI年夜模子练习的持续性跟正确性。最后,算卡也会更新换代,每次进级都市年夜幅晋升其数据吞吐才能,这象征着数据核心外部的交流机也必需随之进级,随之而来的是庞杂的布线变革、收集设置调剂,对数据核心的计划跟运维而言是一个宏大的挑衅。寰球智算工业始终在追求更好的收集处理计划,现在来看,全光穿插OXC被以为极具潜力的替换计划。OXC是一种十分机动的全光交流调理方法,采取集成式互连构建全光交流资本池,存在集成度高、无跳纤全光交流等特色,不只易扩大、牢靠性高、能耗低,一样平常运维也十分轻便。现在寰球重要通讯厂商曾经推出了面向数据核心的商用OXC装备(DC-OXC),而且在一些进步智算企业中投入了利用。比方打造了Gemini多模态年夜模子的谷歌,曾经在自有的数据核心中采取了上万套OXC装备。英伟达首席迷信家Bill Dally也屡次向业界倡议在智算核心建立中采取OXC技巧,以为这项技巧能够无效晋升收集的可治理性跟机动性。在2024年9月举办的深圳国际光电展览会时期,多个年夜模子厂商表现筹备引入OXC技巧。行业研讨机构LightCounting以为,在智算工业的拉举措用下,将来5年OXC装备市场会以28%的增速疾速扩大。而2024年9月开放数据核心委员会(ODCC)宣布《AI收集光交流机技巧讲演》,对光交流机在 AI 练习等年夜范围盘算中的利用停止了具体探究,经由过程对胖树收集架构跟 OXC机动组网的Ring All-Reduce 机能的对照测试, 成果标明在通讯数据量年夜于4MB后,利用OXC组网会有显明收益,晋升了20-34%阁下的机能,All to All 机能晋升30%阁下。面向DC互联的全光传递网(DC-OTN)轻松打造散布式智算核心为充足应用差别地区的资本上风,统筹就近效劳客户,良多企业会在差别地区疏散设置智算核心。但是当客户须要挪用超出单个智算核心的算力时,怎样实现海量数据在多个智算核心之间的及时传递跟调理就成了一个困难。对此海内电信经营商做过大批摸索,面向数据核心间互联的全光传递网(DC-OTN)被以为是以后幻想的处理计划。中国电信在2024年曾做过基于现网的业内首例500公里的长间隔DC-OTN技巧验证,应用江西永丰、北京年夜兴、天津武清三地数据核心的千卡智算集群,实现了1024卡千亿参数年夜模子的散布式结合练习,胜利将练机能晋升至双数据核心效力的97%以上。此次实验标明,应用高速全光传递网打造广域智算收集,完整能够将差别地区的智算资本会聚成一个智算集群,实现跨地区、跨层级、跨主体的高效算力协同调理。中国挪动在2024岁终也实现了百公里级DC-OTN现网实验,采取800G OTN衔接位于差别都会的两个智算集群,独特承当百亿级参数范围的年夜型基本言语模子,机能到达单节点练习效力的98%以上。中国联通在2024年也宣布了《基于RDMA的长距无损数据搬移技巧白皮书》,提出的数据搬移处理计划,经由过程DC间全光直达的组网架构、长距RDMA提速、端网协同跟同一编排等技巧,处理海量数据长距传输时易拥塞、效力低的成绩,为算力时期下海量数据高速迁徙供给了技巧支持。单体为繁星点点,为个别用户供给就近效劳;聚集成群体,可为超年夜范围盘算需要供给充分的智算资本。上述实验证实了DC-OTN的可行性跟无效性,也为散布式智算集群的演进指明白行进偏向,做好了技巧计划贮备。现在人工智能正在向各行各业疾速浸透,这是一场势弗成挡的工业反动,因而市场对智算基本设备的需要只会越来越多。数据核心全光交流技巧(DC-OXC)跟面向DC互联的全光传递网(DC-OTN)技巧能够年夜幅度晋升智算集群安排的机动性,改良智算核心的机能、可扩大性、牢靠性、能耗表示等,无望成为智算工业的主流收集处理计划,助力算力强基举动获得丰富结果,推进算力收集“点、链、网、面”系统化开展。