發(fā)布時間:2024-12-23 03:44:29 來源:下愚不移網 作者:休閑
GPU的展再Scale Up互連成為炙手可熱的話題,在2024年涌現(xiàn)了眾多相關的互連行業(yè)討論。站在阿里云的展再視角,什么樣的互連技術以及生態(tài)才能滿足云上智算集群的發(fā)展?為什么采用全新的Scale Up設計而不復用當前的以太網和RDMA技術呢?本文借著行業(yè)內的一些事件,對GPU超節(jié)點的展再Scale up互連的技術方向觀點進行分享。
在GPU算力架構發(fā)展的互連歷程和趨勢中,我們意識到大模型的展再訓練推理對顯存容量以及帶寬有不斷增長的訴求,傳統(tǒng)的互連GPU單機8卡方案已經不能滿足業(yè)務發(fā)展的需要,更多卡組成超節(jié)點并具備大容量顯存和低延的展再共享的解決方案才能滿足大模型的需求。阿里云對行業(yè)技術方向進行評估后,互連于今年9月份發(fā)布了Alink Sytem開放生態(tài)和AI Infra 2.0服務器系統(tǒng),展再其中底層互連協(xié)議部分兼容國際開放標準UALink協(xié)議。互連
10月29日,展再UALink聯(lián)盟正式發(fā)布,互連并開啟新成員邀請,展再發(fā)起成員包括AMD、AWS、Astera Labs、Cisco、Google、HPE、Intel、Meta 和Microsoft。其中相對于5月份的首次披露的成員,博通消失了,取而代之的是AWS和Astera Labs。其中AWS的加入引人遐想,因為AWS一向低調,很少參與協(xié)議組織。這次AWS躬身入局UALink聯(lián)盟也展示了其對于GPU Scale Up互連需求的思考,以及對于UALink原生支持GPU互連這個技術方向的認同。下面,我們對于Scale up方向的思考做一些展開論述。
智算集群的互連架構
當前智算集群內,圍繞著GPU存在三大互連,分別是業(yè)務網絡互連、Scale Out網絡互連、Scale Up網絡互連,它們分別承載了不同的職責:跨業(yè)務、集群內、超級點GPU之間連通性。隨著AI應用的爆發(fā),推理的GPU規(guī)模最終會大大超過訓練,由于推理服務同時追求業(yè)務請求的低延遲和高吞吐,Scale Up互連技術對于智算超節(jié)點意義重大,Scale Up主要是面向大模型推理服務以及兼顧訓練。
-業(yè)務網絡互連:承載的是諸如需要計算的輸入數(shù)據(jù),輸出結果,以及在各類存儲系統(tǒng)中的模型參數(shù)、checkpoint等。需要進行極大范圍的互連,并且和云上的存儲、業(yè)務接口等互通,采用以太網技術,通常支持各類RDMA。
- Scale Out網絡互連:訓練的DP、PP并行計算切分流程,通常要把集群橫向擴展到超多的GPU機柜,當前的訓練規(guī)模已經發(fā)展到10w卡,目前國際的標準趨勢是,采用專門優(yōu)化的以太網技術UEC(Ultra Ethernet Consortium)協(xié)議。
- Scale Up網絡互連:以推理的大顯存并行計算流量和訓練的張量并行(TP)以及專家并行(MoE)流量為主,有在網計算的需求(可以對All reduce在Switch節(jié)點上進行加速)?;ミB規(guī)模在未來很多年內都會維持在單柜72~80個GPU,從模型大小和推理需求的發(fā)展來看,當前規(guī)劃能滿足很長一段時間的需求。
超節(jié)點內部Scale Up互連:注定和設備深度綁定的協(xié)議
如何定義一個超節(jié)點的邊界?這個邊界就是網卡。超節(jié)點外的以太網是面向連接的設計,實現(xiàn)大面積的連通,超節(jié)點內的是面向計算的設計,實現(xiàn)的是部件間的協(xié)同。
超節(jié)點內通過部件之間深度的耦合,實現(xiàn)了高效協(xié)同(包括效率、編程習慣等),這個耦合帶來了性能(如帶寬、延遲等),特性(內存共享、設備中斷等)的需求,在過去很長一段時間內的典型技術是PCIe,它很好的解決了以CPU為中心的互連問題,幾乎全部的服務器設備都是PCIe接口的。
當數(shù)據(jù)中心主要計算類型發(fā)生變化的時候,新的挑戰(zhàn)出現(xiàn)了,圍繞GPU為中心的計算帶來了新的挑戰(zhàn):
-面向GPU的語義支持:GPU是超眾核架構,其在線程調度機制,以及核心的利用率考量上和CPU有著顯著的區(qū)別。CPU的外設交互模式及RDMA交互模式等,無法有效的滿足GPU的訪存特性和性能要求。和這個使用模式比較類似的是CXL(Compute Express Link,通用計算的內存擴展技術)的使用方式,但CXL在此場景下也存在局限性,比如大量內存一致性特性支持的開銷,以及前向兼容PCIe所有協(xié)議棧帶來的大量冗余特性。
-超高性能訴求:Scale Up相對于Scale Out和業(yè)務網絡需要更高一個數(shù)量級(10倍以上)的帶寬。由于GPU算力的狂飆,在當前的算力水平下,Blackwell這一代配置了雙向共1.8T的算力,這意味著即使采用224g的phy,單芯片也需要雙向共72個serdes差分對,整機柜需要數(shù)千根。。如果采用類似網卡的外置控制器方案,在功耗,延遲、穩(wěn)定性等等都具有極大的劣勢。Scale Up互連采用GPU直出,將所有的控制器植入GPU內部是不可避免的選擇。
為什么采用全新的Scale Up協(xié)議而不復用已有的協(xié)議?
Scale UP互連是用于GPU和GPU 互連,是做更大芯片擴展的服務器,是內存和顯存共享訪問的語義,特點是極低延遲和大帶寬,規(guī)模在柜內,可擴展為多柜到百芯片級(只是一種能力保留,但是未來很多年都看不到應用),是獨立Fabric連接,完全不同于以太網。
Scale Out互連是用于服務器之間是基于網卡+交換機的集群互連,是以太網協(xié)議,規(guī)模在萬級以上,普適的互連。
國際的主流廠商,尤其是云計算為代表的應用廠商都積極加入UALink,代表了一個廣泛的觀點,對于Scale Up,是有價值也有必要從底層協(xié)議到系統(tǒng)硬件進行重新設計的,目前業(yè)界主流的GPU芯片廠家都會考慮ScaleUp采用獨立的Link技術,不會和ScaleOut合并設計。
特性維度
GPU+AI有著顯著的特點,GPU是超多核的編程模型,和擅長通用性的CPU不同,需要使用到大量的內存語義(load/store)訪問,同時由于各個GPU之間需要彼此使用HBM的內存,對跨芯片訪問帶寬和時延有顯著的高要求。
其次Scale Up相對于Scale Out和業(yè)務網絡需要更高一個數(shù)量級(10倍以上)的帶寬,同時由于對于延遲的需求,需要采用GPU芯片直出互連的設計,協(xié)議的輕量化設計具備極大的價值,意味著可以將寶貴的芯片面積節(jié)省給GPU的計算核心、更高的IO集成能力、更低的功耗。
互連范圍
Scale Up互連注重的是大模型的應用,從模型需求和互連分層的角度來說,Scale Up的互連域是一個獨立高性能低延遲內存共享訪問的互連域,單柜規(guī)模在72~80個GPU,保留百級的擴展能力(未來很多年都看不到應用),節(jié)點訪問都是顯存訪問(load/store),性能和延遲的第一要素,完全不需要采用過于復雜的協(xié)議,這個是Scale Out的以太網完全做不到的,如果以太網可以做到,其實就已經簡化到和Scale Up一樣了,也就不是以太網了,脫離了以太網大規(guī)模普適的根本。
當前行業(yè)共識和UALink協(xié)議聯(lián)盟發(fā)展
業(yè)界發(fā)展最早和最成熟的是NVDIA的NVLink技術,然而NVLink并不是開放生態(tài),鑒于此,各家主要廠商或形成了閉環(huán)的自有協(xié)議方案(如谷歌TPU的OCS+ICI架構及AWS的NeuronLink)。當前行業(yè)中實際主流的,都采用的是自有技術,然而各家的演進成本都很高。
考慮到針對終態(tài)進行設計,以及共同對抗行業(yè)壟斷的目的,AMD將其迭代多年的Infinity Fabric協(xié)議貢獻出來,促成UALink聯(lián)盟的成立,希望在更多行業(yè)伙伴的助力下,持續(xù)發(fā)揮原生為GPU互連場景設計的優(yōu)勢,使其成為行業(yè)的開放標準。
考慮到技術特點和開放生態(tài)給云計算公司將帶來技術競爭力和供應鏈等全方位的優(yōu)勢,UALink在發(fā)布之后快速得到各家的青睞,尤其是原持有自有協(xié)議方案的公司,也積極加入其中。截止11月11日,UALink聯(lián)盟已有三十余家廠商加入,并在持續(xù)擴展中;且涵蓋了云計算和應用、硬件、芯片、IP等產業(yè)全生態(tài)。
當前國際業(yè)界已經形成共識:在開放協(xié)議領域,以UALink為代表的Scale Up協(xié)議和UEC為代表的Scale Out協(xié)議,共同支持AI集群互連基礎協(xié)議的演進。
阿里的Alink System:原生支持AI場景的Scale Up開放生態(tài)
ALS(Alink System,加速器互連系統(tǒng))是阿里云目前主導的開放生態(tài),解決Scale Up互連系統(tǒng)的行業(yè)發(fā)展規(guī)范問題。ALS將在系統(tǒng)層面同時支持UALink國際標準并兼容封閉方案。ALS包括ALS-D數(shù)據(jù)面和ALS-M管控面兩個主要組成部分。ALS-D在UALink上補充在網計算加速等特性,并支持Switch組網模式,其主要特點包括:
-性能維度,極致優(yōu)化協(xié)議以達到最小的成本實現(xiàn)極致的性能。在協(xié)議格式、重傳方案等維度的設計上充分考慮工程的性能優(yōu)化,可對報文以極低的延遲進行解析、轉發(fā),從而具備端到端的低時延,并且在實現(xiàn)層面可以節(jié)省大量的芯片面積。
-組網維度,考慮到并行計算的發(fā)展,在新的并行模式(如EP)下需要更強大的點對點通信能力,ALS-D系統(tǒng)定義了基于Switch硬件連接方案,并且支持單層和二層的互連拓撲,提供多至數(shù)百/數(shù)千節(jié)點的互連,可以在各級連接方案中維持1:1的帶寬收斂比,實現(xiàn)具備PB級的顯存共享,為AI計算的通信操作提供靈活的規(guī)模支撐。
互連的管控運維也是系統(tǒng)設計的重要組成部分,ALS-M的目標是為不同的芯片方案提供標準化的接入方案,符合此規(guī)范的設備均可靈活接入應用方系統(tǒng)。無論是對于開放生態(tài)(如UALink系統(tǒng)),還是封閉廠商,ALS使用統(tǒng)一的軟件接口。同時,ALS-M為云計算等集群管理場景,提供單租、多租等靈活和彈性的配置能力。
ALink System的目標是,聚焦GPU算力需求、驅動云計算定義的開放生態(tài),形成智算超節(jié)點的競爭力。
相關文章
隨便看看