2024-10-23|閱讀時間 ‧ 約 0 分鐘

資料中心串接技術,利用光通訊滿足跨域LLM訓練

摘要

隨著AI模型規模的不斷擴大,單一數據中心的同步訓練方法已接近其物理限制。Google透過其先進的多數據中心基礎設施展現出明顯的效率優勢,而OpenAI與微軟則展開極具野心的多數據中心訓練計畫,力圖在基礎設施競賽中超越Google。文章深入探討了多數據中心訓練的技術挑戰,包括同步與異步梯度下降、容錯訓練以及高速網絡連接的必要性,並分析了各大科技巨頭在應對這些挑戰上的策略與競爭態勢。

raw-image


主要要點

  • 單一數據中心的同步訓練因物理限制而難以繼續擴展。
  • Google擁有全球最先進的AI基礎設施,特別是在液冷架構和多數據中心訓練方面。
  • 同步梯度下降在大規模GPU集群中面臨通信延遲與效能瓶頸。
  • 容錯訓練對於數百萬級GPU的穩定運行至關重要,Google在此領域領先。
  • 高帶寬和低延遲的電信網絡是實現跨數據中心訓練的關鍵。
  • 分層同步梯度下降方法有助於減少延遲影響,提升多數據中心訓練的效率。
  • 由於規模擴大受物理條件限制,AI 訓練正從單一數據中心向多數據中心模式轉變。
  • Google 在液冷技術和多數據中心訓練方面擁有先進的基礎設施和經驗,但其長期規劃不如 OpenAI 和微軟積極。
  • 同步訓練在跨數據中心場景下會面臨延遲和頻寬的挑戰。
  • 異步訓練和分層參數服務器是解決多數據中心訓練挑戰的潛在方案。
  • 容錯訓練對於大規模 GPU 集群至關重要,Google 的 Borg 和 Pathways 系統在方面表現出色。
  • 靜默數據損壞(SDC)是一個難以察覺但影響訓練結果的普遍問題,Google 的 Pathways 系統在檢測和解決 SDC 方面表現出色。
  • OpenAI 和微軟正積極與 Oracle、Crusoe 等公司合作,構建比 Google 更大規模的 AI 訓練和推理容量。

b. 文章重點摘要:由於 AI 模型訓練規模不斷擴大,單一數據中心已無法滿足需求,OpenAI 和微軟正積極構建跨數據中心的大型模型訓練基礎設施,並探索異步訓練和分層參數服務器等方法,以挑戰 Google 在 AI 基礎設施方面的領先地位,但 Google 在液冷技術和容錯系統上仍具優勢。

2. 文章段落資訊

  • AI 基礎設施建設需求激增,模型訓練規模已達十萬級 GPU,並向百萬級邁進。受物理條件限制,單一數據中心訓練模式難以為繼。
  • Google 擁有先進的液冷和多數據中心訓練技術,但長期規劃不如 OpenAI 和微軟積極。
  • 同步訓練在大規模 GPU 集群中面臨通訊開銷、延遲和頻寬等挑戰。
  • Amdahl 定律指出,同步任務會限制 GPU 擴展的效益。
  • 掉隊者效應會嚴重影響訓練效率,容錯訓練機制至關重要。
  • Google 的 Borg 和 Pathways 系統在容錯訓練方面表現出色。
  • 靜默數據損壞(SDC)是影響訓練結果的普遍問題,Google 的 Pathways 系統擅長檢測和解決 SDC。
  • 異步訓練和分層參數服務器是解決多數據中心訓練挑戰的潛在方案。
  • OpenAI 計劃採用異步訓練和分層參數服務器等方法,並在基礎設施建設上展現出比 Google 更積極的姿態。
  • 跨數據中心網路互連技術包括 ZR/ZR+ 光纖和 DWDM 等,可實現高速數據交換。
  • 長途網路需要更複雜的電信設備,如轉發器、放大器、ROADM 等。
  • Ciena、Nokia、Infinera 和 Cisco 是主要的電信設備供應商。

3. 重點標籤詞與資訊字句

  • 多數據中心訓練: "Google, OpenAI, and Anthropic are already executing plans to expand their large model training from one site to multiple datacenter campuses." 說明了多數據中心訓練的趨勢。
  • 異步訓練: "In asynchronous training, each replica of the model processes its own batch of the tokens and every couple of steps, each replica will exchange data with the parameter servers and update the global weights." 解釋了異步訓練的概念。
  • 分層參數服務器: "These local parameter servers will be grouped into higher tiers where each tier aggregates and refines the updates from the lower levels before propagating them upwards." 描述了分層參數服務器的架構。
  • 容錯訓練: "Fault Tolerant training is an essential part of all distributed systems." 強調了容錯訓練的重要性。
  • 靜默數據損壞 (SDC): "All companies running GPU clusters regularly experience SDCs." 指出了 SDC 的普遍性。

4. 完整分析與結論

文章分析AI 訓練規模擴大帶來的挑戰,以及 OpenAI 和微軟應對這些挑戰的策略。隨著 AI 模型規模不斷增長,單一數據中心的容量已無法滿足需求,多數據中心訓練成為必然趨勢。雖然 Google 在 AI 基礎設施方面擁有先進技術和豐富經驗,但 OpenAI 和微軟在多數據中心訓練的佈局上更為積極,並探索異步訓練和分層參數服務器等創新方法,以提升訓練效率和規模。未來,多數據中心訓練將成為 AI 發展的重要方向,而相關技術的突破將決定各家公司的競爭優勢。


在資料中心等級的串接中,利用光通訊技術實現跨地區資料中心的同步訓練大型語言模型(LLM)是可行的,並且正逐步成為業界的趨勢。


光通訊技術的優勢光通訊技術相比傳統的電子傳輸具有以下幾個顯著優勢:

高速傳輸:光纖能夠提供更高的帶寬,適合處理大量數據傳輸需求,特別是在訓練大型模型時所需的數據量極大。

低延遲:光信號的傳輸速度接近光速,這對於需要實時數據同步的運算任務至關重要。能效高:光通訊在功耗上通常優於電子傳輸,有助於減少運算過程中的熱量生成,這在高性能計算環境中尤為重要

跨地區資料中心的同步訓練隨著光通訊技術的進步,許多資料中心已經開始採用光子積體電路(PIC)和光學共同封裝(CPO)來提升數據傳輸效率。這些技術使得不同地區的資料中心之間可以進行高效、低延遲的數據交換,從而支持跨地區的同步訓練。

整合電子與光子技術:CPO技術將光子元件與電子元件整合在一起,減少了信號傳輸中的延遲和損耗。這種整合使得在進行大規模AI運算時,可以有效突破傳輸瓶頸

動態重配置能力:新的光學互聯技術允許資料中心內部和之間的靈活配置,使得資料流可以根據需求進行動態調整,以適應不同的運算任務

實際應用案例例如,阿里雲已經開發出專門為訓練大型語言模型設計的以太網網絡,以支持超大數據傳輸。這一設計不僅提高了數據處理能力,也減少了對單一供應商的依賴,顯示出業界對於多樣化解決方案的需求

結論總體而言,隨著光通訊技術的不斷發展和成熟,跨地區資料中心之間進行同步訓練LLM變得越來越可行。未來幾年內,隨著CPO等技術的普及和成本降低,我們可以預見到這一領域將會有更多創新和應用出現。


1. 分散式訓練的基本原理 分散式訓練通常涉及將模型拆分成多個部分,並在多個GPU或多個計算節點上並行運行。主要有兩種分散式訓練策略:

數據並行(Data Parallelism): 將訓練數據分割成多個部分,每個計算節點處理一部分數據,同步更新模型參數。

模型並行(Model Parallelism): 將模型本身拆分,分佈到多個計算節點上,每個節點負責模型的不同部分。


3. 光通訊技術的應用 光通訊技術,特別是高速的光纖網路,可以顯著提高跨資料中心之間的數據傳輸速度和帶寬,減少延遲。

具體應用包括:

高帶寬低延遲連接(HBLLC): 使用先進的光纖技術,如DWDM(Dense Wavelength Division Multiplexing),可以在單一光纖上傳輸多個波長,提高帶寬。 光子計算互連: 未來的研究可能涉及使用光子技術進行計算節點之間的直接互連,進一步減少延遲。

4. 實際應用與案例 目前,大型科技公司如Google、Microsoft和Facebook等已經在全球範圍內部署了高速光纖網路,以支持其分散式訓練需求。例如: Google的TPU Pods: Google使用高速內部網路連接其數據中心,實現高效的分散式訓練。 Microsoft的Project Brainwave: 利用光纖網路和FPGA加速器,支持實時的分散式推理和訓練。


資料來源:https://www.semianalysis.com/p/multi-datacenter-training-openais

分享至
成為作者繼續創作的動力吧!
現職投行分析師,興趣是分享研究投資理財想法,幫助投資散戶低資訊成本創造最大投資報酬。每日分享外資看法、投資理財觀念以及經濟、產業知識
© 2024 vocus All rights reserved.