人工智能計算領(lǐng)域服務(wù)商NVIDIA公司,在OFC 2023會議上發(fā)表的“Software-defined, programmable L1 dataplane: demonstration of fabric hardware resilience using optical switches”論文中,介紹了其最新的工作成果,提出了一種用于數(shù)據(jù)中心網(wǎng)絡(luò)的可編程光纖結(jié)構(gòu)設(shè)計,利用HUBER+SUHNER Polatis矩陣光開關(guān)將SDN擴展到L1。并在其HPC/ML測試臺上進行了實驗,利用可編程網(wǎng)絡(luò)自動從硬件或軟件故障中進行故障切換。
文章概述
軟件定義的控制平面徹底改變了網(wǎng)絡(luò)。應(yīng)用程序可以按需求配置網(wǎng)絡(luò),即使需要與其他負載共享網(wǎng)絡(luò)資源。如今,網(wǎng)絡(luò)基礎(chǔ)設(shè)施的深度編程可深入到第2層(L2),例如InfiniBand(IB)子網(wǎng)管理器(SM)是軟件定義控制器的最低級別。這意味著網(wǎng)絡(luò)的可編程性無法作用于物理基礎(chǔ)設(shè)施布線,通常來講物理基礎(chǔ)設(shè)施在部署后是固定的。我們通過引入一種工作流程,即將軟件定義的控制能力擴展到L1,來消除這一限制。軟件定義的物理層將網(wǎng)絡(luò)布線從剛性基礎(chǔ)設(shè)施轉(zhuǎn)換為可編程資源,允許在網(wǎng)絡(luò)運行時進行物理拓撲更改。這為各種過去不可行的、新的網(wǎng)絡(luò)操作奠定了基礎(chǔ),但同時帶來了新的影響:需要在網(wǎng)絡(luò)堆棧的更高級別處理。
基于光開關(guān)的實現(xiàn)的在網(wǎng)絡(luò)運行時的L1可編程性使得幾個新應(yīng)用得以實現(xiàn)。第一個也是我們當前評估的重點,是針對網(wǎng)絡(luò)結(jié)構(gòu)(交換機、收發(fā)器和/或服務(wù)器)中的硬件故障和軟件故障提供彈性。失效對計算集群的利用率和效率的影響在整個行業(yè)都很明顯,這使創(chuàng)建彈性網(wǎng)絡(luò)變得非常重要。業(yè)務(wù)關(guān)鍵型應(yīng)用程序需要保證持續(xù)可用性:停機意味著收入損失、客戶流失以及公司聲譽受損。L1可編程性的另一個潛在應(yīng)用是根據(jù)應(yīng)用程序需求修改網(wǎng)絡(luò)的物理拓撲,例如在胖樹的葉交換機之間創(chuàng)建環(huán)面/網(wǎng)格,以減少對延遲敏感的應(yīng)用程序的通信時間?;蛟诔~訂閱的網(wǎng)絡(luò)中,根據(jù)需要將帶寬分配給網(wǎng)絡(luò)的各個部分,以根據(jù)物理拓撲提供不同的QoS。L1可編程性還可以在物理層中應(yīng)用隔離,斷開多個租戶之間的網(wǎng)元,或隔離已被識別為潛在威脅的主機。我們的PoC基于IB架構(gòu),但同樣適用于NVLINK和以太網(wǎng)。
由于無法更改物理連接,當前的故障恢復(fù)解決方案側(cè)重于通過調(diào)整轉(zhuǎn)發(fā)配置來盡可能排除故障路徑。例如在IB網(wǎng)絡(luò)中的軟件特性有SHIELD和利用替代路徑的自適應(yīng)路由。這些協(xié)議有兩個顯著的局限性。首先,它們只能在存在替代路徑的情況下使用;葉交換機上的故障(將斷開服務(wù)器與網(wǎng)絡(luò)的連接)或服務(wù)器上的故障無法通過這種方式緩解。其次,他們無法恢復(fù)集群的全部性能。另一種增強彈性的方法是添加冗余硬件來備份整個或部分網(wǎng)絡(luò)(例如,Dual ToR)。這種方法的缺點是需要更多的硬件,資源未得到充分利用。
彈性系統(tǒng)的可重構(gòu)結(jié)構(gòu)
我們利用光開關(guān)來實現(xiàn)L1可編程數(shù)據(jù)平面。光開關(guān)可對光路進行重定位,光路的I/O排列由電接口定義控制。如圖1a所示,通過在給定網(wǎng)絡(luò)拓撲的交換層之間引入光開關(guān),實現(xiàn)了點對點光纖連接排列的可編程更改。圖1a顯示了針對小規(guī)模二級(葉脊架構(gòu))胖樹中的彈性應(yīng)用的網(wǎng)絡(luò)架構(gòu)。在網(wǎng)絡(luò)中增加了冗余交換機(RS–冗余脊交換機和RL–冗余葉交換機)和冗余服務(wù)器。冗余設(shè)備與主網(wǎng)絡(luò)元件一并連接到光開關(guān)的可用端口。當檢測到設(shè)備故障時,對應(yīng)的光開關(guān)會執(zhí)行修正配置:斷開故障設(shè)備與網(wǎng)絡(luò)的連接,用冗余設(shè)備替換。該設(shè)計允許可編程的彈性程度(主設(shè)備和冗余設(shè)備的比率)根據(jù)系統(tǒng)要求而變化。此外,該體系結(jié)構(gòu)可以隔離安全威脅,最大限度地減少維護期間的停機時間,同時作為通用的可編程數(shù)據(jù)平面。
我們設(shè)計并實現(xiàn)了相應(yīng)的控制平面軟件,可以看作L1數(shù)據(jù)平面控制的SDN堆棧擴展。設(shè)計了圖形化后端來反映物理網(wǎng)絡(luò)拓撲結(jié)構(gòu)(包括光交換部件),為控制器邏輯提供所需的系統(tǒng)建模支持。隨后,引入了一組概念和算法,允許SDN L1控制器識別給定部署的不同拓撲可能性,執(zhí)行物理拓撲變化,并向L2層控制器發(fā)出信號以適應(yīng)物理網(wǎng)絡(luò)的變化。圖1(b和c)顯示了系統(tǒng)控制回路,紫色的SDN L1(光纖結(jié)構(gòu)管理器-OFM)是執(zhí)行物理更改并向L2(在IB的情況下是子網(wǎng)管理器)發(fā)送通知的軟件。同樣地,可以擴展L2來請求物理拓撲更改。故障檢測機制(超出當前工作范圍)通知OFM需要更換設(shè)備。OFM計算并強制執(zhí)行相應(yīng)的光學連接,例如,在Leaf交換機故障的情況下,圖1a中的RL1將其替換。隨后,網(wǎng)絡(luò)控制器將RL1囊括在網(wǎng)絡(luò)中。該工作流程能夠在幾秒鐘內(nèi)將網(wǎng)絡(luò)容量恢復(fù)到100%。此外,如本文下幾節(jié)所討論,我們正在進行防止設(shè)備故障導(dǎo)致的應(yīng)用程序崩潰的工作。
圖1: a)彈性體系結(jié)構(gòu)概述 b)控制回路流程圖和 c)軟件概述
試驗臺說明
為了驗證網(wǎng)絡(luò)彈性,所有小規(guī)模POD連接中都配置了一個光開關(guān),并在葉層和脊層各添加了一個冗余的IB交換機,以替換失效的葉交換機或脊交換機。測試臺由4臺DGX服務(wù)器和14臺IB交換機組成:其中8臺作為葉交換機,4臺作為脊交換機。兩個額外的IB交換機作為冗余設(shè)備:一個冗余葉交換機(RL,如圖1a所示)和一個冗余脊交換機(RS)。我們使用現(xiàn)成的L1光開關(guān)【POLATIS】。光鏈路則選擇了200 Gb/s CWDM可插拔光模塊,其顯著減少了所需的光開關(guān)端口,且有足夠的鏈路預(yù)算來支持光開關(guān)的損耗。DGX具有8個IB接口(8個通道),每個通道連接到不同的Leaf交換機。葉交換機與脊交換機完全連接,即沒有超額負載。所有連接都接入光開關(guān),以進行各種實驗;當前評估重點關(guān)注IB交換機的更換。
實驗程序和結(jié)果
我們進行了交換機失效模擬,觸發(fā)SDN L1控制器搜索物理拓撲以減輕故障。冗余交換機接管了物理拓撲中故障交換機的角色,IB子網(wǎng)管理器接收到拓撲更改通知,該通知指示其修復(fù)L2網(wǎng)絡(luò)配置。通過適當?shù)靥幚鞩B傳輸超時,運行中的應(yīng)用程序可以在網(wǎng)絡(luò)更改后恢復(fù)運行。
圖2顯示了我們對UCX和NCCL集體通信庫的測試結(jié)果。在該測試場景中,進行了IB交換機故障模擬。圖表顯示了實驗中涉及的一個DGX的IB界面上的帶寬(y軸)隨時間(x軸)的變化,對于all-to-all和all-reduce的微基準測試?;鶞蕼y試在4個DGX之間和接口之間產(chǎn)生相同的流量。我們運行微基準測試,模擬故障,并監(jiān)控隨著時間的推移應(yīng)用程序的性能和狀態(tài)。在Spine故障期間,由于活動鏈路的減少,系統(tǒng)的容量會降低,但應(yīng)用程序有可替代路徑可用,不會崩潰。啟用彈性方案后,可以在幾秒鐘內(nèi)恢復(fù)群集的全部性能(Spine故障切換)。在Leaf層發(fā)生故障(Leaf failover)的情況下,應(yīng)用程序崩潰,受影響的IB接口將保持離線狀態(tài),直到問題解決。啟用彈性方案后,應(yīng)用程序在中斷幾秒鐘(目前約為7秒,但有待優(yōu)化)仍能繼續(xù)運行,系統(tǒng)的全部容量也能夠恢復(fù)。
圖2:在啟用彈性解決方案的情況下,演示微基準的BW恢復(fù):a)在左側(cè)OSU上,全部到全部,b)在右側(cè)NCCL上,全部減少。顯示所有鏈路隨時間變化的帶寬:黃色部分顯示Tx帶寬,而紫色部分顯示Rx帶寬。一個DGX的所有鏈路的圖都重疊。
?結(jié)論
我們提出了一個系統(tǒng)設(shè)計和工作流程,結(jié)合起來實現(xiàn)了L1的可編程性。構(gòu)建了一個HPC/ML測試臺,并通過模擬交換機故障場景來評估彈性應(yīng)用。通過添加光交換網(wǎng)絡(luò)和冗余設(shè)備,可在幾秒鐘內(nèi)自動恢復(fù)全部容量;此外,可以避免在葉級故障期間發(fā)生的應(yīng)用程序崩潰。在未來的工作中,我們計劃提供成本分析和其他實驗的詳細結(jié)果,包括其他應(yīng)用。
凌云光自2001年起即關(guān)注光交換技術(shù)、產(chǎn)品與應(yīng)用的推廣,2015年正式與全球光交換廠家HUBER+SUHNER Polatis公司建立戰(zhàn)略合作伙伴關(guān)系,共同開創(chuàng)光交換應(yīng)用的新時代。
HUBER+SUHNER Polatis 提供低損耗的全光交換解決方案,用于遠程光纖層配置、保護、監(jiān)控、重新配置和測試?;诳煽康?、經(jīng)過現(xiàn)場驗證的 DirectLight™ 光學矩陣開關(guān)技術(shù),Polatis 動態(tài)光纖交叉連接可從8x8擴展到 576x576端口,并實現(xiàn)完全透明的連接,具有低損耗和無背反射,完全獨立于波長、功率或數(shù)據(jù)速率。動態(tài)光交叉連接是實現(xiàn)軟件定義的光網(wǎng)絡(luò)基礎(chǔ)設(shè)施自動化和虛擬化的關(guān)鍵要素。Polatis 支持RESTCONF和NETCONF,可輕松與 OpenDaylight 等流行的 SDN 控制器集成,還與前沿的傳輸 SDN 供應(yīng)商合作,以支持新興標準并確保我們的客戶受益于可靠的 SDN 解決方案。