資料中心串接技術,利用光通訊滿足跨域LLM訓練

更新 發佈閱讀 10 分鐘

摘要

隨著AI模型規模的不斷擴大,單一數據中心的同步訓練方法已接近其物理限制。Google透過其先進的多數據中心基礎設施展現出明顯的效率優勢,而OpenAI與微軟則展開極具野心的多數據中心訓練計畫,力圖在基礎設施競賽中超越Google。文章深入探討了多數據中心訓練的技術挑戰,包括同步與異步梯度下降、容錯訓練以及高速網絡連接的必要性,並分析了各大科技巨頭在應對這些挑戰上的策略與競爭態勢。

raw-image
raw-image
raw-image
raw-image
raw-image


主要要點

  • 單一數據中心的同步訓練因物理限制而難以繼續擴展。
  • Google擁有全球最先進的AI基礎設施,特別是在液冷架構和多數據中心訓練方面。
  • 同步梯度下降在大規模GPU集群中面臨通信延遲與效能瓶頸。
  • 容錯訓練對於數百萬級GPU的穩定運行至關重要,Google在此領域領先。
  • 高帶寬和低延遲的電信網絡是實現跨數據中心訓練的關鍵。
  • 分層同步梯度下降方法有助於減少延遲影響,提升多數據中心訓練的效率。
  • 由於規模擴大受物理條件限制,AI 訓練正從單一數據中心向多數據中心模式轉變。
  • Google 在液冷技術和多數據中心訓練方面擁有先進的基礎設施和經驗,但其長期規劃不如 OpenAI 和微軟積極。
  • 同步訓練在跨數據中心場景下會面臨延遲和頻寬的挑戰。
  • 異步訓練和分層參數服務器是解決多數據中心訓練挑戰的潛在方案。
  • 容錯訓練對於大規模 GPU 集群至關重要,Google 的 Borg 和 Pathways 系統在方面表現出色。
  • 靜默數據損壞(SDC)是一個難以察覺但影響訓練結果的普遍問題,Google 的 Pathways 系統在檢測和解決 SDC 方面表現出色。
  • OpenAI 和微軟正積極與 Oracle、Crusoe 等公司合作,構建比 Google 更大規模的 AI 訓練和推理容量。

b. 文章重點摘要:由於 AI 模型訓練規模不斷擴大,單一數據中心已無法滿足需求,OpenAI 和微軟正積極構建跨數據中心的大型模型訓練基礎設施,並探索異步訓練和分層參數服務器等方法,以挑戰 Google 在 AI 基礎設施方面的領先地位,但 Google 在液冷技術和容錯系統上仍具優勢。

2. 文章段落資訊

  • AI 基礎設施建設需求激增,模型訓練規模已達十萬級 GPU,並向百萬級邁進。受物理條件限制,單一數據中心訓練模式難以為繼。
  • Google 擁有先進的液冷和多數據中心訓練技術,但長期規劃不如 OpenAI 和微軟積極。
  • 同步訓練在大規模 GPU 集群中面臨通訊開銷、延遲和頻寬等挑戰。
  • Amdahl 定律指出,同步任務會限制 GPU 擴展的效益。
  • 掉隊者效應會嚴重影響訓練效率,容錯訓練機制至關重要。
  • Google 的 Borg 和 Pathways 系統在容錯訓練方面表現出色。
  • 靜默數據損壞(SDC)是影響訓練結果的普遍問題,Google 的 Pathways 系統擅長檢測和解決 SDC。
  • 異步訓練和分層參數服務器是解決多數據中心訓練挑戰的潛在方案。
  • OpenAI 計劃採用異步訓練和分層參數服務器等方法,並在基礎設施建設上展現出比 Google 更積極的姿態。
  • 跨數據中心網路互連技術包括 ZR/ZR+ 光纖和 DWDM 等,可實現高速數據交換。
  • 長途網路需要更複雜的電信設備,如轉發器、放大器、ROADM 等。
  • Ciena、Nokia、Infinera 和 Cisco 是主要的電信設備供應商。

3. 重點標籤詞與資訊字句

  • 多數據中心訓練: "Google, OpenAI, and Anthropic are already executing plans to expand their large model training from one site to multiple datacenter campuses." 說明了多數據中心訓練的趨勢。
  • 異步訓練: "In asynchronous training, each replica of the model processes its own batch of the tokens and every couple of steps, each replica will exchange data with the parameter servers and update the global weights." 解釋了異步訓練的概念。
  • 分層參數服務器: "These local parameter servers will be grouped into higher tiers where each tier aggregates and refines the updates from the lower levels before propagating them upwards." 描述了分層參數服務器的架構。
  • 容錯訓練: "Fault Tolerant training is an essential part of all distributed systems." 強調了容錯訓練的重要性。
  • 靜默數據損壞 (SDC): "All companies running GPU clusters regularly experience SDCs." 指出了 SDC 的普遍性。

4. 完整分析與結論

文章分析AI 訓練規模擴大帶來的挑戰,以及 OpenAI 和微軟應對這些挑戰的策略。隨著 AI 模型規模不斷增長,單一數據中心的容量已無法滿足需求,多數據中心訓練成為必然趨勢。雖然 Google 在 AI 基礎設施方面擁有先進技術和豐富經驗,但 OpenAI 和微軟在多數據中心訓練的佈局上更為積極,並探索異步訓練和分層參數服務器等創新方法,以提升訓練效率和規模。未來,多數據中心訓練將成為 AI 發展的重要方向,而相關技術的突破將決定各家公司的競爭優勢。


在資料中心等級的串接中,利用光通訊技術實現跨地區資料中心的同步訓練大型語言模型(LLM)是可行的,並且正逐步成為業界的趨勢。


光通訊技術的優勢光通訊技術相比傳統的電子傳輸具有以下幾個顯著優勢:

高速傳輸:光纖能夠提供更高的帶寬,適合處理大量數據傳輸需求,特別是在訓練大型模型時所需的數據量極大。

低延遲:光信號的傳輸速度接近光速,這對於需要實時數據同步的運算任務至關重要。能效高:光通訊在功耗上通常優於電子傳輸,有助於減少運算過程中的熱量生成,這在高性能計算環境中尤為重要

跨地區資料中心的同步訓練隨著光通訊技術的進步,許多資料中心已經開始採用光子積體電路(PIC)和光學共同封裝(CPO)來提升數據傳輸效率。這些技術使得不同地區的資料中心之間可以進行高效、低延遲的數據交換,從而支持跨地區的同步訓練。

整合電子與光子技術:CPO技術將光子元件與電子元件整合在一起,減少了信號傳輸中的延遲和損耗。這種整合使得在進行大規模AI運算時,可以有效突破傳輸瓶頸

動態重配置能力:新的光學互聯技術允許資料中心內部和之間的靈活配置,使得資料流可以根據需求進行動態調整,以適應不同的運算任務

實際應用案例例如,阿里雲已經開發出專門為訓練大型語言模型設計的以太網網絡,以支持超大數據傳輸。這一設計不僅提高了數據處理能力,也減少了對單一供應商的依賴,顯示出業界對於多樣化解決方案的需求

結論總體而言,隨著光通訊技術的不斷發展和成熟,跨地區資料中心之間進行同步訓練LLM變得越來越可行。未來幾年內,隨著CPO等技術的普及和成本降低,我們可以預見到這一領域將會有更多創新和應用出現。


1. 分散式訓練的基本原理 分散式訓練通常涉及將模型拆分成多個部分,並在多個GPU或多個計算節點上並行運行。主要有兩種分散式訓練策略:

數據並行(Data Parallelism): 將訓練數據分割成多個部分,每個計算節點處理一部分數據,同步更新模型參數。

模型並行(Model Parallelism): 將模型本身拆分,分佈到多個計算節點上,每個節點負責模型的不同部分。


3. 光通訊技術的應用 光通訊技術,特別是高速的光纖網路,可以顯著提高跨資料中心之間的數據傳輸速度和帶寬,減少延遲。

具體應用包括:

高帶寬低延遲連接(HBLLC): 使用先進的光纖技術,如DWDM(Dense Wavelength Division Multiplexing),可以在單一光纖上傳輸多個波長,提高帶寬。 光子計算互連: 未來的研究可能涉及使用光子技術進行計算節點之間的直接互連,進一步減少延遲。

4. 實際應用與案例 目前,大型科技公司如Google、Microsoft和Facebook等已經在全球範圍內部署了高速光纖網路,以支持其分散式訓練需求。例如: Google的TPU Pods: Google使用高速內部網路連接其數據中心,實現高效的分散式訓練。 Microsoft的Project Brainwave: 利用光纖網路和FPGA加速器,支持實時的分散式推理和訓練。


資料來源:https://www.semianalysis.com/p/multi-datacenter-training-openais

留言
avatar-img
分析師的市場觀點
374會員
1.8K內容數
現職全台最大銀行擔任AI/科技股供應鏈投資分析師。 很高興能夠成為你實踐財富自由的第一步,歡迎瀏覽進階訂閱方案 原價每天不到5元,CP值最高,超越報紙資訊的法人投行分析。 精簡快速分享投行法人研究及操盤思維 希望能讓你我用最少時間、精力、資金洞察近期金融市場的變化與重點分享。
2025/04/29
摘要 儘管投資者因宏觀經濟和供應鏈風險而情緒惡化,但GPU的核心需求因全球LLM(大型語言模型)推理晶片短缺而激增。Blackwell晶片供應受限,但需求強勁,尤其是GB200/300型號,且推理需求的爆發性增長(部分數據顯示代幣生成量年增5倍)推動了投資熱潮。摩根士丹利認為,這種需求來自實際應用
Thumbnail
2025/04/29
摘要 儘管投資者因宏觀經濟和供應鏈風險而情緒惡化,但GPU的核心需求因全球LLM(大型語言模型)推理晶片短缺而激增。Blackwell晶片供應受限,但需求強勁,尤其是GB200/300型號,且推理需求的爆發性增長(部分數據顯示代幣生成量年增5倍)推動了投資熱潮。摩根士丹利認為,這種需求來自實際應用
Thumbnail
2025/04/29
景碩(3189.TW):1Q25 初步財報摘要 - 會計政策調整,EPS 符合預期 1Q25 財報概覽景碩1Q25核心業務(營業利益)低於高盛預期10%,低於彭博共識26%,主因ABF新廠(K6廠)獲利能力低於預期(1Q25虧損)。公司1Q25毛利率較高盛/彭博共識低6.9/7.6個百分點,且
Thumbnail
2025/04/29
景碩(3189.TW):1Q25 初步財報摘要 - 會計政策調整,EPS 符合預期 1Q25 財報概覽景碩1Q25核心業務(營業利益)低於高盛預期10%,低於彭博共識26%,主因ABF新廠(K6廠)獲利能力低於預期(1Q25虧損)。公司1Q25毛利率較高盛/彭博共識低6.9/7.6個百分點,且
Thumbnail
2025/04/29
摘要 報告指出,南亞電路板(8046.TW)第一季營收達84.58億新台幣(季增7%),超出預期,主要受益於ABF載板(用於800G)和BT載板(用於記憶體)需求強勁,帶動毛利率提升至5.0%。第二季因關稅暫停刺激需求,營收預計季增10%,但下半年可能放緩。報告上調目標價至73新台幣,但維持「減持
Thumbnail
2025/04/29
摘要 報告指出,南亞電路板(8046.TW)第一季營收達84.58億新台幣(季增7%),超出預期,主要受益於ABF載板(用於800G)和BT載板(用於記憶體)需求強勁,帶動毛利率提升至5.0%。第二季因關稅暫停刺激需求,營收預計季增10%,但下半年可能放緩。報告上調目標價至73新台幣,但維持「減持
Thumbnail
看更多
你可能也想看
Thumbnail
債券投資,不只是高資產族群的遊戲 在傳統的投資觀念中,海外債券(Overseas Bonds)常被貼上「高資產族群專屬」的標籤。過去動輒 1 萬甚至 10 萬美元的最低申購門檻,讓許多想尋求穩定配息的小資族望而卻步。 然而,在股市波動劇烈的環境下,尋求穩定的美元現金流與被動收入成為許多投資人
Thumbnail
債券投資,不只是高資產族群的遊戲 在傳統的投資觀念中,海外債券(Overseas Bonds)常被貼上「高資產族群專屬」的標籤。過去動輒 1 萬甚至 10 萬美元的最低申購門檻,讓許多想尋求穩定配息的小資族望而卻步。 然而,在股市波動劇烈的環境下,尋求穩定的美元現金流與被動收入成為許多投資人
Thumbnail
透過川普的近期債券交易揭露,探討債券作為資產配置中「穩定磐石」的重要性。文章分析降息對債券的潛在影響,以及股神巴菲特的操作策略。並介紹玉山證券「小額債」平臺,如何讓小資族也能低門檻參與海外債券市場,實現「低門檻、低波動、固定收益」的務實投資方式。
Thumbnail
透過川普的近期債券交易揭露,探討債券作為資產配置中「穩定磐石」的重要性。文章分析降息對債券的潛在影響,以及股神巴菲特的操作策略。並介紹玉山證券「小額債」平臺,如何讓小資族也能低門檻參與海外債券市場,實現「低門檻、低波動、固定收益」的務實投資方式。
Thumbnail
解析「債券」如何成為資產配置中的穩定錨,提供低風險高回報的投資選項。 藉由玉山證券的低門檻債券服務,投資者可輕鬆入手,平衡風險並穩定財務。
Thumbnail
解析「債券」如何成為資產配置中的穩定錨,提供低風險高回報的投資選項。 藉由玉山證券的低門檻債券服務,投資者可輕鬆入手,平衡風險並穩定財務。
Thumbnail
相較於波動較大的股票,債券能提供固定現金流,而玉山證券推出的小額債,更以1000 美元的低門檻,讓學生與新手也能參與全球優質企業債投資。玉山E-Trader平台即時報價、條件式篩選與清楚的交易流程等特色,大幅降低投資難度,對於希望分散風險、建立穩定現金流的人來說,玉山小額債是一個值得嘗試的理財起點。
Thumbnail
相較於波動較大的股票,債券能提供固定現金流,而玉山證券推出的小額債,更以1000 美元的低門檻,讓學生與新手也能參與全球優質企業債投資。玉山E-Trader平台即時報價、條件式篩選與清楚的交易流程等特色,大幅降低投資難度,對於希望分散風險、建立穩定現金流的人來說,玉山小額債是一個值得嘗試的理財起點。
Thumbnail
本文探討 RAG + LLM 技術的應用與挑戰,分析 Google、IBM、微軟、AWS 等科技巨頭和開源社群的策略,並提供新進業者和企業在導入 RAG + LLM 系統時的建議,包括重視向量空間建立、選擇合適的 RAG 策略、持續學習和實驗以及資料品質等面向。
Thumbnail
本文探討 RAG + LLM 技術的應用與挑戰,分析 Google、IBM、微軟、AWS 等科技巨頭和開源社群的策略,並提供新進業者和企業在導入 RAG + LLM 系統時的建議,包括重視向量空間建立、選擇合適的 RAG 策略、持續學習和實驗以及資料品質等面向。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 275 | OpenAI Transformer 模型之視覺化 及 AI說書 - 從0開始 - 276 | OpenAI Transf
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 275 | OpenAI Transformer 模型之視覺化 及 AI說書 - 從0開始 - 276 | OpenAI Transf
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 275 | OpenAI Transformer 模型之視覺化 的操作,以下繼續:我們可以提出一個更好的解釋,並要求查看得分細節,這些
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 275 | OpenAI Transformer 模型之視覺化 的操作,以下繼續:我們可以提出一個更好的解釋,並要求查看得分細節,這些
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 GPT-4 等大型語言模型 (LLM) 可以解釋語言模型中的神經元,OpenAI 創建了直覺的介面並於 2023 年 5 月公開。人工智慧的歷史在非常短的時間內已經達到
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 GPT-4 等大型語言模型 (LLM) 可以解釋語言模型中的神經元,OpenAI 創建了直覺的介面並於 2023 年 5 月公開。人工智慧的歷史在非常短的時間內已經達到
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先列出目前擁有的材料: 微調 GPT 模型引言:AI說書 - 從0開始 - 229 | 微調 GPT 模型引言 微調 GPT 模型的前置步驟:AI說書 - 從0開始
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先列出目前擁有的材料: 微調 GPT 模型引言:AI說書 - 從0開始 - 229 | 微調 GPT 模型引言 微調 GPT 模型的前置步驟:AI說書 - 從0開始
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 可以造訪 https://platform.openai.com/examples 看看其他有趣應用: 注意,OpenAI GPT 模型並未預訓練來執行這些任務,
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 可以造訪 https://platform.openai.com/examples 看看其他有趣應用: 注意,OpenAI GPT 模型並未預訓練來執行這些任務,
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們現在明白了 OpenAI 團隊專注於語言建模,因此,保留掩蔽注意力子層是合理的,Brown 等人於 2020 年顯著增大了僅包含解碼器的 Transformer 模
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們現在明白了 OpenAI 團隊專注於語言建模,因此,保留掩蔽注意力子層是合理的,Brown 等人於 2020 年顯著增大了僅包含解碼器的 Transformer 模
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 光從 2017 年到 2020 年,參數數量就從原始 Transformer 模型中的 65M 個參數增加到 GPT-3 模型中的 175B 個參數,統計如下表所示:
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 光從 2017 年到 2020 年,參數數量就從原始 Transformer 模型中的 65M 個參數增加到 GPT-3 模型中的 175B 個參數,統計如下表所示:
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News