資料中心串接技術,利用光通訊滿足跨域LLM訓練

更新於 2024/10/23閱讀時間約 10 分鐘

摘要

隨著AI模型規模的不斷擴大,單一數據中心的同步訓練方法已接近其物理限制。Google透過其先進的多數據中心基礎設施展現出明顯的效率優勢,而OpenAI與微軟則展開極具野心的多數據中心訓練計畫,力圖在基礎設施競賽中超越Google。文章深入探討了多數據中心訓練的技術挑戰,包括同步與異步梯度下降、容錯訓練以及高速網絡連接的必要性,並分析了各大科技巨頭在應對這些挑戰上的策略與競爭態勢。

raw-image
raw-image
raw-image
raw-image
raw-image


主要要點

  • 單一數據中心的同步訓練因物理限制而難以繼續擴展。
  • Google擁有全球最先進的AI基礎設施,特別是在液冷架構和多數據中心訓練方面。
  • 同步梯度下降在大規模GPU集群中面臨通信延遲與效能瓶頸。
  • 容錯訓練對於數百萬級GPU的穩定運行至關重要,Google在此領域領先。
  • 高帶寬和低延遲的電信網絡是實現跨數據中心訓練的關鍵。
  • 分層同步梯度下降方法有助於減少延遲影響,提升多數據中心訓練的效率。
  • 由於規模擴大受物理條件限制,AI 訓練正從單一數據中心向多數據中心模式轉變。
  • Google 在液冷技術和多數據中心訓練方面擁有先進的基礎設施和經驗,但其長期規劃不如 OpenAI 和微軟積極。
  • 同步訓練在跨數據中心場景下會面臨延遲和頻寬的挑戰。
  • 異步訓練和分層參數服務器是解決多數據中心訓練挑戰的潛在方案。
  • 容錯訓練對於大規模 GPU 集群至關重要,Google 的 Borg 和 Pathways 系統在方面表現出色。
  • 靜默數據損壞(SDC)是一個難以察覺但影響訓練結果的普遍問題,Google 的 Pathways 系統在檢測和解決 SDC 方面表現出色。
  • OpenAI 和微軟正積極與 Oracle、Crusoe 等公司合作,構建比 Google 更大規模的 AI 訓練和推理容量。

b. 文章重點摘要:由於 AI 模型訓練規模不斷擴大,單一數據中心已無法滿足需求,OpenAI 和微軟正積極構建跨數據中心的大型模型訓練基礎設施,並探索異步訓練和分層參數服務器等方法,以挑戰 Google 在 AI 基礎設施方面的領先地位,但 Google 在液冷技術和容錯系統上仍具優勢。

2. 文章段落資訊

  • AI 基礎設施建設需求激增,模型訓練規模已達十萬級 GPU,並向百萬級邁進。受物理條件限制,單一數據中心訓練模式難以為繼。
  • Google 擁有先進的液冷和多數據中心訓練技術,但長期規劃不如 OpenAI 和微軟積極。
  • 同步訓練在大規模 GPU 集群中面臨通訊開銷、延遲和頻寬等挑戰。
  • Amdahl 定律指出,同步任務會限制 GPU 擴展的效益。
  • 掉隊者效應會嚴重影響訓練效率,容錯訓練機制至關重要。
  • Google 的 Borg 和 Pathways 系統在容錯訓練方面表現出色。
  • 靜默數據損壞(SDC)是影響訓練結果的普遍問題,Google 的 Pathways 系統擅長檢測和解決 SDC。
  • 異步訓練和分層參數服務器是解決多數據中心訓練挑戰的潛在方案。
  • OpenAI 計劃採用異步訓練和分層參數服務器等方法,並在基礎設施建設上展現出比 Google 更積極的姿態。
  • 跨數據中心網路互連技術包括 ZR/ZR+ 光纖和 DWDM 等,可實現高速數據交換。
  • 長途網路需要更複雜的電信設備,如轉發器、放大器、ROADM 等。
  • Ciena、Nokia、Infinera 和 Cisco 是主要的電信設備供應商。

3. 重點標籤詞與資訊字句

  • 多數據中心訓練: "Google, OpenAI, and Anthropic are already executing plans to expand their large model training from one site to multiple datacenter campuses." 說明了多數據中心訓練的趨勢。
  • 異步訓練: "In asynchronous training, each replica of the model processes its own batch of the tokens and every couple of steps, each replica will exchange data with the parameter servers and update the global weights." 解釋了異步訓練的概念。
  • 分層參數服務器: "These local parameter servers will be grouped into higher tiers where each tier aggregates and refines the updates from the lower levels before propagating them upwards." 描述了分層參數服務器的架構。
  • 容錯訓練: "Fault Tolerant training is an essential part of all distributed systems." 強調了容錯訓練的重要性。
  • 靜默數據損壞 (SDC): "All companies running GPU clusters regularly experience SDCs." 指出了 SDC 的普遍性。

4. 完整分析與結論

文章分析AI 訓練規模擴大帶來的挑戰,以及 OpenAI 和微軟應對這些挑戰的策略。隨著 AI 模型規模不斷增長,單一數據中心的容量已無法滿足需求,多數據中心訓練成為必然趨勢。雖然 Google 在 AI 基礎設施方面擁有先進技術和豐富經驗,但 OpenAI 和微軟在多數據中心訓練的佈局上更為積極,並探索異步訓練和分層參數服務器等創新方法,以提升訓練效率和規模。未來,多數據中心訓練將成為 AI 發展的重要方向,而相關技術的突破將決定各家公司的競爭優勢。


在資料中心等級的串接中,利用光通訊技術實現跨地區資料中心的同步訓練大型語言模型(LLM)是可行的,並且正逐步成為業界的趨勢。


光通訊技術的優勢光通訊技術相比傳統的電子傳輸具有以下幾個顯著優勢:

高速傳輸:光纖能夠提供更高的帶寬,適合處理大量數據傳輸需求,特別是在訓練大型模型時所需的數據量極大。

低延遲:光信號的傳輸速度接近光速,這對於需要實時數據同步的運算任務至關重要。能效高:光通訊在功耗上通常優於電子傳輸,有助於減少運算過程中的熱量生成,這在高性能計算環境中尤為重要

跨地區資料中心的同步訓練隨著光通訊技術的進步,許多資料中心已經開始採用光子積體電路(PIC)和光學共同封裝(CPO)來提升數據傳輸效率。這些技術使得不同地區的資料中心之間可以進行高效、低延遲的數據交換,從而支持跨地區的同步訓練。

整合電子與光子技術:CPO技術將光子元件與電子元件整合在一起,減少了信號傳輸中的延遲和損耗。這種整合使得在進行大規模AI運算時,可以有效突破傳輸瓶頸

動態重配置能力:新的光學互聯技術允許資料中心內部和之間的靈活配置,使得資料流可以根據需求進行動態調整,以適應不同的運算任務

實際應用案例例如,阿里雲已經開發出專門為訓練大型語言模型設計的以太網網絡,以支持超大數據傳輸。這一設計不僅提高了數據處理能力,也減少了對單一供應商的依賴,顯示出業界對於多樣化解決方案的需求

結論總體而言,隨著光通訊技術的不斷發展和成熟,跨地區資料中心之間進行同步訓練LLM變得越來越可行。未來幾年內,隨著CPO等技術的普及和成本降低,我們可以預見到這一領域將會有更多創新和應用出現。


1. 分散式訓練的基本原理 分散式訓練通常涉及將模型拆分成多個部分,並在多個GPU或多個計算節點上並行運行。主要有兩種分散式訓練策略:

數據並行(Data Parallelism): 將訓練數據分割成多個部分,每個計算節點處理一部分數據,同步更新模型參數。

模型並行(Model Parallelism): 將模型本身拆分,分佈到多個計算節點上,每個節點負責模型的不同部分。


3. 光通訊技術的應用 光通訊技術,特別是高速的光纖網路,可以顯著提高跨資料中心之間的數據傳輸速度和帶寬,減少延遲。

具體應用包括:

高帶寬低延遲連接(HBLLC): 使用先進的光纖技術,如DWDM(Dense Wavelength Division Multiplexing),可以在單一光纖上傳輸多個波長,提高帶寬。 光子計算互連: 未來的研究可能涉及使用光子技術進行計算節點之間的直接互連,進一步減少延遲。

4. 實際應用與案例 目前,大型科技公司如Google、Microsoft和Facebook等已經在全球範圍內部署了高速光纖網路,以支持其分散式訓練需求。例如: Google的TPU Pods: Google使用高速內部網路連接其數據中心,實現高效的分散式訓練。 Microsoft的Project Brainwave: 利用光纖網路和FPGA加速器,支持實時的分散式推理和訓練。


資料來源:https://www.semianalysis.com/p/multi-datacenter-training-openais

avatar-img
150會員
321內容數
很高興能夠成為你實踐財富自由的第一步,歡迎瀏覽進階訂閱方案 原價每天不到5元,CP值最高,超越報紙資訊的法人投行分析。 精簡快速分享投行法人研究及操盤思維 希望能讓你我用最少時間、精力、資金洞察近期金融市場的變化與重點分享。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
分析師的市場觀點 的其他內容
摘要 (Abstract) 隨著生成式AI推動對高效能運算前所未有的需求,數據中心產業正經歷巨大變革。Nvidia Blackwell GPU的出現,以其高達130kW的機架功率密度,確立了液冷技術的標準地位,未採用液冷的數據中心將在AI競賽中落後。這也導致了數據中心設計的重大轉變,例如Meta拆
###摘要 本文探討了智能手機人工智能(AI)應用的最新發展趨勢,聚焦於蘋果即將推出的Apple Intelligence功能以及中國智能手機廠商在AI應用領域的進展。文章指出,Apple Intelligence功能將分階段推出,預計將引領AI智能手機更新換代週期。相比之下,中國智能手機廠商的A
金融市場摘要 - 2024/10/22 重點摘要: 亞洲市場停滯不前,而歐美市場則因寬鬆貨幣政策影響,近期屢創新高。台灣、日本和中國9月份的出口數據(+4.5%/-1.7%/+2.4%)顯示出對AI產業成長的依賴。 美國市場表現不一:道瓊指數下跌,那斯達克指數因輝達的預期收益而小幅上漲。科
外匯市場是全球最大的金融市場,日交易量達7.5萬億美元,遠超股票市場。外匯交易涉及不同國家貨幣的交換,匯率是兩種貨幣之間的比例。市場參與者包括中間商、央行、企業和投機者。外匯交易不僅是現匯,還包括遠期合約和貨幣互換,這些工具幫助企業對沖匯率風險。外匯市場去中心化,交易自由度高,但監管相對較鬆,這也吸
美國聯邦儲備系統於9月18日宣布降息50個基點,正式進入降息周期。降息的主要原因是為了刺激經濟,促進就業和物價穩定。市場預期在一年內,聯儲將降息超過200個基點。降息將影響美股、債券及其他資產的表現,並可能導致全球資金流動。各國央行在美國降息後,通常會跟隨調整政策,但這次許多國家已提前降息。日本則因
新加坡發生了歷史上最大的洗錢案,涉案金額超過30億美元。警方在2023年8月15日展開大規模突襲,逮捕了10名嫌疑人,查獲奢侈品和加密貨幣等價值超過10億美元的資產。這些資金主要來自非法網上賭博和貸款業務。洗錢的過程涉及將犯罪得來的資金合法化,並利用藝術、房地產和金條等資產進行轉換,增加追蹤難度。此
摘要 (Abstract) 隨著生成式AI推動對高效能運算前所未有的需求,數據中心產業正經歷巨大變革。Nvidia Blackwell GPU的出現,以其高達130kW的機架功率密度,確立了液冷技術的標準地位,未採用液冷的數據中心將在AI競賽中落後。這也導致了數據中心設計的重大轉變,例如Meta拆
###摘要 本文探討了智能手機人工智能(AI)應用的最新發展趨勢,聚焦於蘋果即將推出的Apple Intelligence功能以及中國智能手機廠商在AI應用領域的進展。文章指出,Apple Intelligence功能將分階段推出,預計將引領AI智能手機更新換代週期。相比之下,中國智能手機廠商的A
金融市場摘要 - 2024/10/22 重點摘要: 亞洲市場停滯不前,而歐美市場則因寬鬆貨幣政策影響,近期屢創新高。台灣、日本和中國9月份的出口數據(+4.5%/-1.7%/+2.4%)顯示出對AI產業成長的依賴。 美國市場表現不一:道瓊指數下跌,那斯達克指數因輝達的預期收益而小幅上漲。科
外匯市場是全球最大的金融市場,日交易量達7.5萬億美元,遠超股票市場。外匯交易涉及不同國家貨幣的交換,匯率是兩種貨幣之間的比例。市場參與者包括中間商、央行、企業和投機者。外匯交易不僅是現匯,還包括遠期合約和貨幣互換,這些工具幫助企業對沖匯率風險。外匯市場去中心化,交易自由度高,但監管相對較鬆,這也吸
美國聯邦儲備系統於9月18日宣布降息50個基點,正式進入降息周期。降息的主要原因是為了刺激經濟,促進就業和物價穩定。市場預期在一年內,聯儲將降息超過200個基點。降息將影響美股、債券及其他資產的表現,並可能導致全球資金流動。各國央行在美國降息後,通常會跟隨調整政策,但這次許多國家已提前降息。日本則因
新加坡發生了歷史上最大的洗錢案,涉案金額超過30億美元。警方在2023年8月15日展開大規模突襲,逮捕了10名嫌疑人,查獲奢侈品和加密貨幣等價值超過10億美元的資產。這些資金主要來自非法網上賭博和貸款業務。洗錢的過程涉及將犯罪得來的資金合法化,並利用藝術、房地產和金條等資產進行轉換,增加追蹤難度。此
你可能也想看
Google News 追蹤
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型,並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing,現
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。 現在我們來載入預訓練權重,預訓練的權重包含 Transformer 的智慧
Thumbnail
本系列將討論 LLM 時代中,分散 ML workload 的各種方法。作為系列的第一篇,我們將提及 High-level 的概論,譬如分散式訓練的各種切法、Model Parallelism 的相依問題,以及改善 Network Topology 等課題。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 62 說:如果我參照原始 Google 釋出的 Transformer 論文的參數,在三個字的句子情況下,Single-Head At
機器學習領域的專業人士可以從這篇文章中獲得寶貴的見解。 追求更大的數據集和更強大的模型一直是提升性能的核心策略。 以下是我在機器學習領域工作7年後的三個重大體悟。 ▋體悟1 - 大數據的重要性 自2009年ImageNet問世以來, 數據集的規模和質量對機器學習的影響越
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 30中,陳述了AI專案選擇系統的重要性,可以是Hugging Face、Google Cloud AI、ChatGPT/GPT-4
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們在AI說書 - 從0開始 - 28中闡述了一些AI專業者的未來發展方向,現在我們更細分: 人工智慧專家在人工智慧某一領域擁有專業知識或技能,包含微調模型、維護和支
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer模型驅動的人工智慧正在將無所不在的一切連接起來,機器直接與其他機器通訊,人工智慧驅動的物聯網訊號無需人工干預即可觸發自動決策。 自然語言處理演算法
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 已經在AI說書 - 從0開始 - 12以及AI說書 - 從0開始 - 13中見識到TPU的威力了,現在我們把參數放大到真實大型語言模型的規模,看看運算時間的等級。
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型,並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing,現
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。 現在我們來載入預訓練權重,預訓練的權重包含 Transformer 的智慧
Thumbnail
本系列將討論 LLM 時代中,分散 ML workload 的各種方法。作為系列的第一篇,我們將提及 High-level 的概論,譬如分散式訓練的各種切法、Model Parallelism 的相依問題,以及改善 Network Topology 等課題。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 62 說:如果我參照原始 Google 釋出的 Transformer 論文的參數,在三個字的句子情況下,Single-Head At
機器學習領域的專業人士可以從這篇文章中獲得寶貴的見解。 追求更大的數據集和更強大的模型一直是提升性能的核心策略。 以下是我在機器學習領域工作7年後的三個重大體悟。 ▋體悟1 - 大數據的重要性 自2009年ImageNet問世以來, 數據集的規模和質量對機器學習的影響越
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 30中,陳述了AI專案選擇系統的重要性,可以是Hugging Face、Google Cloud AI、ChatGPT/GPT-4
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們在AI說書 - 從0開始 - 28中闡述了一些AI專業者的未來發展方向,現在我們更細分: 人工智慧專家在人工智慧某一領域擁有專業知識或技能,包含微調模型、維護和支
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer模型驅動的人工智慧正在將無所不在的一切連接起來,機器直接與其他機器通訊,人工智慧驅動的物聯網訊號無需人工干預即可觸發自動決策。 自然語言處理演算法
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 已經在AI說書 - 從0開始 - 12以及AI說書 - 從0開始 - 13中見識到TPU的威力了,現在我們把參數放大到真實大型語言模型的規模,看看運算時間的等級。