面向智算時(shí)代的光通信技術(shù)發(fā)展探討
大模型對(duì)算力的需求呈指數(shù)級(jí)增長,促使智算業(yè)務(wù)飛速發(fā)展。以生成式預(yù)訓(xùn)練(GPT)大模型ChatGPT為例,ChatGPT-6的計(jì)算量(Flops)相較于GPT-4提升了1444至1936倍,所使用的圖形處理單元(GPU)數(shù)量,也從數(shù)萬個(gè)GPU,提高至百萬個(gè)GPU。
因此,人工智能(AI)下的各類智算應(yīng)用與業(yè)務(wù),要求高速光通信網(wǎng)絡(luò)具備大帶寬、低時(shí)延與高可靠等特性以支持算力的發(fā)展。同時(shí),也需要高速光通信在組網(wǎng)能力、高速互聯(lián)、傳輸時(shí)延、可靠傳輸?shù)确矫娉掷m(xù)革新。
智算時(shí)代的兩種集群組網(wǎng)方式
當(dāng)前,AI智算中心以單點(diǎn)大集群為主,即在同一個(gè)物理機(jī)房實(shí)現(xiàn)模型的訓(xùn)練。而模型規(guī)模的擴(kuò)展、算卡數(shù)量提升帶來的巨大電力消耗,以及算力碎片化,使得分布式集群成為另一個(gè)重要的選擇,即利用多個(gè)物理機(jī)房進(jìn)行模型訓(xùn)練。此外,目前國產(chǎn)GPU的性能尚與國際先進(jìn)水平存在一定的差距,因而未來分布式集群更為重要。上述兩種不同的集群組網(wǎng)方式,對(duì)高速光通信技術(shù)提出了差異化的承載需求。對(duì)于單點(diǎn)集群,當(dāng)前數(shù)據(jù)中心以Spine-leaf(葉脊)網(wǎng)絡(luò)架構(gòu)為主,形成Full-mesh(全互聯(lián))拓?fù)?。相較于傳統(tǒng)三層網(wǎng)絡(luò)架構(gòu),葉脊網(wǎng)絡(luò)對(duì)光模塊的數(shù)量需求顯著增加,尤其是400G、800G,乃至1.6T這類高速光模塊。同時(shí),隨著速率的提升,其對(duì)光模塊封裝工藝的要求也不斷提高,以降低單比特成本與功耗。此外,全光交換技術(shù)在單點(diǎn)集群中可突破電交換在功耗和時(shí)延方面的瓶頸,在國外已經(jīng)開展了商用實(shí)踐。谷歌公司基于光路交換(OCS)技術(shù)構(gòu)建了Jupiter數(shù)據(jù)中心網(wǎng)絡(luò),英偉達(dá)將OCS引入到Spine、Leaf與AI服務(wù)器之間,為硬件與軟件提供彈性保護(hù)。然而,隨著算力需求的高速增長,未來單點(diǎn)集群將面臨算力不足的問題,且電力供應(yīng)也將成為大規(guī)模智算建設(shè)的瓶頸。例如,OpenAI為訓(xùn)練ChatGPT-6,需要在美國同一個(gè)州部署約10萬張H100 GPU,每張H100 GPU一年的耗電量約為3.74MW h,而10萬張H100 GPU一年的耗電量就達(dá)到了驚人37.4萬MW h。同時(shí),如何將各類數(shù)據(jù)中心建設(shè)導(dǎo)致的碎片化算力充分利用,也成為一大挑戰(zhàn)。此外,受限于當(dāng)前國產(chǎn)GPU的能力以及GPU生態(tài)割裂等問題,國內(nèi)對(duì)多個(gè)智算中心間協(xié)同計(jì)算更加關(guān)注,需求也更加迫切。目前業(yè)界正在積極探索分布式智算集群應(yīng)用,并聚焦更長距離、更大帶寬與更低時(shí)延需求。對(duì)于分布式集群,萬卡、十萬卡,乃至百萬卡級(jí)的互聯(lián)帶寬往往達(dá)到數(shù)十P比特級(jí),甚至超百P比特級(jí)。因此,分布式集群間互聯(lián)帶寬需要足夠大,以保證算效,并配合帶寬收斂技術(shù)減少光層的數(shù)量來降低成本。當(dāng)前,業(yè)界通過引入波分復(fù)用(WDM)技術(shù)、提高單波長速率與擴(kuò)展傳輸波段,實(shí)現(xiàn)帶寬增大的目標(biāo)。例如,谷歌公司目前已完成跨多個(gè)數(shù)據(jù)中心的Gemini Ultra大模型訓(xùn)練,中國電信在其現(xiàn)網(wǎng)中基于波分復(fù)用技術(shù)完成了業(yè)內(nèi)首例超百千米分布式無損智算網(wǎng)現(xiàn)網(wǎng)驗(yàn)證。同時(shí),也可引入空分復(fù)用(SDM)技術(shù),以在物理層面增加傳輸通道,提高傳輸帶寬?;诖耍疚膹膯吸c(diǎn)集群與分布式集群出發(fā),介紹了兩種集群方式的關(guān)鍵技術(shù)、發(fā)展現(xiàn)狀與應(yīng)用實(shí)例,并結(jié)合中國電信自身的需求,對(duì)智算時(shí)代的高速光通信技術(shù)進(jìn)行展望。
面向單點(diǎn)集群的數(shù)據(jù)中心內(nèi)部(DCN)光通信技術(shù)
當(dāng)前,高速光模塊電接口單通道100G SerDes(串行器/解串器)速率技術(shù)已成熟,配合100G與200G的光口速率,可分別應(yīng)用于400G與800G短距光模塊。對(duì)于1.6T的短距光模塊,可采用200G SerDes技術(shù),配合200G光口速率實(shí)現(xiàn)。目前來看,電接口單通道200G SerDes技術(shù)預(yù)計(jì)于2025年啟動(dòng)研究。高速光模塊標(biāo)準(zhǔn)進(jìn)展情況如表1所示,從標(biāo)準(zhǔn)化角度來看,目前部分標(biāo)準(zhǔn)組織的800G光模塊相關(guān)標(biāo)準(zhǔn)已基本完成,如IPEC(國際光電委員會(huì))與IEEE(電氣電子工程師學(xué)會(huì))標(biāo)準(zhǔn)協(xié)會(huì)等,而1.6T的光模塊相關(guān)標(biāo)準(zhǔn)正處于研究階段。
面向分布式集群的數(shù)據(jù)中心之間光通信技術(shù)
分布式集群對(duì)帶寬(容量)的需求日益增加,尤其是未來萬卡,甚至十萬卡級(jí)別的智算中心間互聯(lián)。目前通常采用波分復(fù)用技術(shù)實(shí)現(xiàn)傳輸容量的提升,包括提高單波長速率與擴(kuò)展傳輸波段。對(duì)于單波長速率的提升,當(dāng)前單波長400Gbit/s已開始商用部署,單波長800Gbit/s還處于發(fā)展階段。按照單波長800Gbit/s相干光模塊的規(guī)格來劃分,可分為兩種:一種是基于90GBaud左右的短距離800G模塊,采用概率成型的雙偏振64維正交幅度調(diào)制(PS-PM-64QAM),現(xiàn)網(wǎng)一般覆蓋數(shù)據(jù)中心光互聯(lián);另一種是基于130GBaud左右的城域800G模塊,采用概率成型的雙偏振16維正交幅度調(diào)制(PS-PM-16QAM)。其中,第二種800G模塊可通過配置軟件參數(shù),實(shí)現(xiàn)覆蓋數(shù)據(jù)中心應(yīng)用的單波長1.2Tbit/s。對(duì)于傳輸波段的擴(kuò)展,當(dāng)前擴(kuò)展C波段與擴(kuò)展L波段技術(shù)已經(jīng)開始商用部署,且傳輸?shù)牟ǘ畏秶筛哌_(dá)12THz,結(jié)合單波長400Gbit/s技術(shù),可實(shí)現(xiàn)單根光纖32Tbit/s的容量。面向未來,隨著帶寬需求的持續(xù)提升,S波段將是下一代波段擴(kuò)展的熱點(diǎn)方向。然而,S波段的光纖放大器(如摻銩光纖放大器、TDFA)、收發(fā)光器件還處于準(zhǔn)備階段。同時(shí), “C+L+S”波段面臨更加嚴(yán)重的受激拉曼散射效應(yīng),因此需要進(jìn)行深度的功率優(yōu)化,提高多波段的傳輸性能。此外,系統(tǒng)級(jí)的聯(lián)合優(yōu)化也是下一代多波段傳輸?shù)暮诵碾y點(diǎn),包括入纖功率優(yōu)化與預(yù)加載技術(shù)的引入,以實(shí)現(xiàn)最大的鏈路吞吐量。對(duì)于未來的分布式集群,考慮智算中心內(nèi)單算卡的帶寬為200Gbit/s,那么一千卡、一萬卡與兩萬卡的互聯(lián)帶寬分別為100Tbit/s、1Pbit/s與2Pbit/s,不同配置下所需的光層數(shù)量如表2所示。需要說明的是,這里的千卡互聯(lián)是指收發(fā)兩端各500卡,萬卡與兩萬卡同理;分析僅為體現(xiàn)光層配置對(duì)光層數(shù)量與成本的影響,并未考慮帶寬收斂技術(shù),實(shí)際上數(shù)據(jù)中心會(huì)采用帶寬收斂技術(shù)降低成本。在系統(tǒng)配置上,考慮400G采用PM-QPSK調(diào)制、800G采用PS-PM-64QAM與PS-PM-16QAM兩種調(diào)制、1.2T采用PS-PM-64QAM調(diào)制,C波段、L波段、S波段與U波段譜寬均為6THz。不難發(fā)現(xiàn),最大帶寬越大,所需的光層數(shù)量越少。