ML Infra 一大戰場 - 分散式訓練

閱讀時間約 4 分鐘

5 年前在做 ML System 研究時,我們看見 ML Job 所需要的算力需求,已經超過硬體成長的 Moore’s Law。有鑑於此,如何有效的分散 ML Workload,便是當年的最大課題。

5 年後的現在,ML 進入 LLM 時代。傳統 ML 的算力需求成長,是每兩年 8 倍。LLM 的算力需求成長,是每兩年 275 倍。因此,研究這個問題的急迫程度,可說是提高了數十倍 XD

上次我們已經聊過 On-Device AI ,這次我們將轉向 Server Side,聊聊我們該怎麼分散化 ML Jobs。


分散式的各種切法


講到分散式訓練 ( Distributed Training ),直覺就有該怎麼分、以及該怎麼合。

廣義上來說,分法有兩種:Data Parallelism 與 Model Parallelism。

Data Parallelism 是將 Dataset 本身切開,一部分 data 給 device 1 跑、另一部分給 device 2 跑。

跑完以後,各自在將 gradient 互相分享,更新參數,完成一次 batch run。

Model Parallelism 則會將 Model 本身拆開。比如說,一個 6 layer 的 model ,前 3 給 device 1 跑、後 3 給 device 2 跑。


單純切還是太笨了

Data Parallelism 的合併問題

然而 Data Parallelism 切完以後,就有如何分享成果、 Gradient Aggregation 的問題。

基本上,有分為 Synchronize 的方法及 Asynchronize 的方法。

Synchronize 亦指,等全部 device train 完以後,再一起 sync。

當然,只要任一個 device 跑得特別慢,全部就要停下來等他。


From Tensorflow

From Tensorflow

Asynchronize 意指,有一個共享的 Parameter Server,負責收集大家的 gradient,並和大家溝通。

各 Device 將不再互等,只要跟 Parameter Server 一直 update 大家的成果即可。

當然,每個 Device 跑速不同,收集到的 gradient 可能不精確,準確度不一定比較好。

Model Parallelism 的相依問題

Model Parallelism 也有相依性的問題。簡單的說,如果 Device 1 還沒 train 玩,Device 2 只能乾等。

因此,近年來的 Pipeline Parallelism,便為了解決這問題。

Chimera: Efficient Training Large-Scale Neural Networks with Bidirectional Pipelines》便提出,如果我們能將各 Model、各 batch run,以相互交叉的方式排序,便可以極大化提升 device 使用率。

From paper: Chimera: Efficiently Training Large-Scale Neural Networks with Bidirectional Pipelines

From paper: Chimera: Efficiently Training Large-Scale Neural Networks with Bidirectional Pipelines


跨越節點

上述平行化方法,我們都只討論 Model Training 都只在一個機器上發生。

現今 LLM 的世代,模型在大多數情況,都擠不進一台機器,必須多台機器、甚至 multiple clusters。

Topology Scheduling 便成為最大課題。當 communication 已經 over network,就要考慮 network 可能斷、network 有 hotspot 等因素。

實務上,學界也會針對 Intra-node(一個節點內)、Inter-node(多個節點)分開討論、甚至一起討論。

還有更多

上述大多只提及 Model Training 的平行化方法。實際上,還有 Serving、甚至是多重 workloads 的角度可以切入,也會在這個系列中持續探索,非常歡迎大家追蹤這個沙龍,就不會錯過任何文章!

旅美工程師,閒談矽谷與北美的各種樣貌。 #矽谷 #工程師生涯 #旅行 #軟體工程 #個人成長 Medium: medium.com/mencher-publication
留言0
查看全部
發表第一個留言支持創作者!
2023 年的 AI 革命主旋律,看似就圍繞 ChatGPT,或是 Sora 這種生成 AI 影片的 GenAI 。事實上,和人們日常息息相關的氣象預報,在 2023 年也同樣掀起 AI 革命,並對全球氣象預報產生顯著的影響。
2024 年,AI Boom 的第二年,我們總算可以撥開 AI 迷霧,逐一聊聊大型語言模型 (LLM) 的實際應用。On-Device AI 正快速進化,Google Gemini Nano 正式部署上手機,Apple 也發布最新論文彎道超車,改變了手機 AI 的未來發展。
2023 年的 AI 革命主旋律,看似就圍繞 ChatGPT,或是 Sora 這種生成 AI 影片的 GenAI 。事實上,和人們日常息息相關的氣象預報,在 2023 年也同樣掀起 AI 革命,並對全球氣象預報產生顯著的影響。
2024 年,AI Boom 的第二年,我們總算可以撥開 AI 迷霧,逐一聊聊大型語言模型 (LLM) 的實際應用。On-Device AI 正快速進化,Google Gemini Nano 正式部署上手機,Apple 也發布最新論文彎道超車,改變了手機 AI 的未來發展。
你可能也想看
Google News 追蹤
Thumbnail
本專欄將提供給您最新的市場資訊、產業研究、交易心法、優質公司介紹,以上內容並非個股分析,還請各位依據自身狀況作出交易決策。歡迎訂閱支持我,獲得相關內容,也祝您的投資之路順遂! 每年 $990 訂閱方案👉 https://reurl.cc/VNYVxZ 每月 $99 訂閱方案👉https://re
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
❗免運費【100ml 新口味】十全果醋飲 果醋飲 醋 果汁 十全果醋 十全 📌快來嚐鮮,新口味果醋飲😋 ⬇️完整說明網址⬇️ 👉https://shope.ee/7zqXfyg4Ub #Pp貓 #免運費 #新口味 #十全果醋飲 #果醋飲 #醋 #果汁 #十全果醋 #十全 #青梅醋 #
Thumbnail
來介紹一款,ZING Color日日保鮮盒;有500ml及1000ml兩種容量尺寸 集合氣密防漏 完美密封 台灣設計/原料/製造 安全可靠 台灣大廠食品級PP 無毒環保 可微波 可冷凍 多功能運用於產品!相當便利使用! 計畫外出野餐,1000ml保鮮盒我都裝原型食物,雞蛋、番茄、花椰
Thumbnail
近年來,人工智能與機器學習(AI/ML)技術快速發展,醫療設備數量呈現明顯增長趨勢。本文根據世界衛生組織國際臨床試驗註冊平臺(ICTRP)的臨床試驗數據進行全面分析,瞭解AI/ML SaMD的發展趨勢及地理分佈特徵,並強調了國際合作臨床試驗的必要性。
Thumbnail
根據美國FDA的數據顯示,2023年的申請量是歷年最大,放射學領域是AI/ML-SaMD的醫材設備申請數持續穩定成長的科別。AI/ML-SaMD的醫材設備通過量預計將成長30%以上。放射科領域佔全部通過量的76%,估計2023年也將保持居冠。
Thumbnail
這篇文章將分享最近遇到 NVIDIA GPU driver 的問題,並提供瞭解決步驟,以及證實問題解決的測試方法。當您遇到類似問題時,可以參考這篇文章進行解決。文章中包含了定位庫文件目錄、備份和替換文件以及測試修改的步驟。
Thumbnail
BigQuery M是 BigQuery 中的一項功能,數據分析師可以使用SQL語句創建、訓練、評估和預測機器學習模型。 在這次實作將使用一個電子商務(Google 商品商店)數據集來運行一些典型的查詢和模型訓練和預測,以讓企業更了解其客戶的購買習慣。
Thumbnail
銀行擁抱開放銀行時該如何使用 AI 和 ML 處理數據?哪些數據問題應該被考量?閱讀 Neverlandseeker 的文章讓你產生新洞見!
Thumbnail
(照片大小500*500) AHC神仙水 化妝水 100ML 回購率:60% 我臉很容易乾,而且一乾就開始發癢 但如果塗了太多乳液或太油 臉還是會紅癢(到底想怎麼樣?!) 所以保濕產品對我很重要 尤其是擦了不會癢的保濕 這一款是網路上超火紅的產品 很多網紅都在推薦的AHC神仙水 好奇下就買了一瓶試試
Thumbnail
閃爍的繁星下點點被染污空氣隔濾後模糊不清街道上的霓虹燈…泛著大城市夜裡毫無特色有規律地一光一暗閃亮著招來冇術的色彩.越接近越看不清霓虹燈招牌上面到底寫著什麼…好像是:Death Pub死亡酒吧. 推開那度像南瓜Halloween姿態的門,走進去後,一片低俗的紅光.幽暗令瞳孔放大,五秒後才能適應.
Thumbnail
本專欄將提供給您最新的市場資訊、產業研究、交易心法、優質公司介紹,以上內容並非個股分析,還請各位依據自身狀況作出交易決策。歡迎訂閱支持我,獲得相關內容,也祝您的投資之路順遂! 每年 $990 訂閱方案👉 https://reurl.cc/VNYVxZ 每月 $99 訂閱方案👉https://re
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
❗免運費【100ml 新口味】十全果醋飲 果醋飲 醋 果汁 十全果醋 十全 📌快來嚐鮮,新口味果醋飲😋 ⬇️完整說明網址⬇️ 👉https://shope.ee/7zqXfyg4Ub #Pp貓 #免運費 #新口味 #十全果醋飲 #果醋飲 #醋 #果汁 #十全果醋 #十全 #青梅醋 #
Thumbnail
來介紹一款,ZING Color日日保鮮盒;有500ml及1000ml兩種容量尺寸 集合氣密防漏 完美密封 台灣設計/原料/製造 安全可靠 台灣大廠食品級PP 無毒環保 可微波 可冷凍 多功能運用於產品!相當便利使用! 計畫外出野餐,1000ml保鮮盒我都裝原型食物,雞蛋、番茄、花椰
Thumbnail
近年來,人工智能與機器學習(AI/ML)技術快速發展,醫療設備數量呈現明顯增長趨勢。本文根據世界衛生組織國際臨床試驗註冊平臺(ICTRP)的臨床試驗數據進行全面分析,瞭解AI/ML SaMD的發展趨勢及地理分佈特徵,並強調了國際合作臨床試驗的必要性。
Thumbnail
根據美國FDA的數據顯示,2023年的申請量是歷年最大,放射學領域是AI/ML-SaMD的醫材設備申請數持續穩定成長的科別。AI/ML-SaMD的醫材設備通過量預計將成長30%以上。放射科領域佔全部通過量的76%,估計2023年也將保持居冠。
Thumbnail
這篇文章將分享最近遇到 NVIDIA GPU driver 的問題,並提供瞭解決步驟,以及證實問題解決的測試方法。當您遇到類似問題時,可以參考這篇文章進行解決。文章中包含了定位庫文件目錄、備份和替換文件以及測試修改的步驟。
Thumbnail
BigQuery M是 BigQuery 中的一項功能,數據分析師可以使用SQL語句創建、訓練、評估和預測機器學習模型。 在這次實作將使用一個電子商務(Google 商品商店)數據集來運行一些典型的查詢和模型訓練和預測,以讓企業更了解其客戶的購買習慣。
Thumbnail
銀行擁抱開放銀行時該如何使用 AI 和 ML 處理數據?哪些數據問題應該被考量?閱讀 Neverlandseeker 的文章讓你產生新洞見!
Thumbnail
(照片大小500*500) AHC神仙水 化妝水 100ML 回購率:60% 我臉很容易乾,而且一乾就開始發癢 但如果塗了太多乳液或太油 臉還是會紅癢(到底想怎麼樣?!) 所以保濕產品對我很重要 尤其是擦了不會癢的保濕 這一款是網路上超火紅的產品 很多網紅都在推薦的AHC神仙水 好奇下就買了一瓶試試
Thumbnail
閃爍的繁星下點點被染污空氣隔濾後模糊不清街道上的霓虹燈…泛著大城市夜裡毫無特色有規律地一光一暗閃亮著招來冇術的色彩.越接近越看不清霓虹燈招牌上面到底寫著什麼…好像是:Death Pub死亡酒吧. 推開那度像南瓜Halloween姿態的門,走進去後,一片低俗的紅光.幽暗令瞳孔放大,五秒後才能適應.