本系列將討論 LLM 時代中，分散 ML workload 的各種方法。作為系列的第一篇，我們將提及 High-level 的概論，譬如分散式訓練的各種切法、Model Parallelism 的相依問題，以及改善 Network Topology 等課題。

<html lang="en"><head><style>              .article-container {                width: 100%;                font-family: Microsoft JhengHei,Helvetica Neue,Helvetica,Arial,sans-serif;              }              ul, ol {                margin: 12px auto;                max-width: 740px;                color: #535150;                line-height: 1.8;                padding-left: 0px;              }              .graf--img {                display: table;                justify-content: center;                align-items: center;                text-align: center;                color: gray;                font-size: 14px;                letter-spacing: 0px;                margin: 10px auto 50px;                width: 100%;                position: relative;                clear: both;              }              .graf--img.center img {                width: 100%;                max-width: 740px;                margin: 10px auto 0px;                display: block;                margin: 0 auto;              }              .graf--img.full img {                width: 100%;              }              .captionTheme__wrapper {                width: 100%;                font-style: normal;                line-height: 22px;                font-size: 16px;                max-width: 600px;                margin-top: 8px;                display: inline-block;              }              .graf--img.full {                max-width: 100%;                margin: 40px 0px;                display: block;                margin: 0 auto;                align-items: center;              }              .graf--figure {                text-align: center;                color: gray;                font-style: italic;                font-size: 15px;                margin: 28px auto;                box-sizing: border-box;              }              .graf--figure iframe {                width: 100%;                max-width: 740px;                margin: 0 auto;              }              .graf--p {                font-size: 16px;                line-height: 1.8;                font-family: "Microsoft JhengHei fixed", "Helvetica Neue" ,"Microsoft JhengHei", Helvetica, "Segoe UI", Tahoma, Arial, sans-serif;                letter-spacing: 1px;                font-weight: 400;                max-width: 740px;                color: #535150;                text-align: left;              }              .graf--p > a {                color: #00B3C6 !important;                text-decoration: none !important;              }              .graf--li > a {                color: #00B3C6 !important;                text-decoration: none !important;              }              .graf--quotesSpecial > a {                color: #00B3C6 !important;                text-decoration: none !important;              }              .graf--blockquote > a {                color: #00B3C6 !important;                text-decoration: none !important;              }              .graf--h1 > a {                color: #00B3C6 !important;                text-decoration: none !important;              }              .graf--h2 > a {                color: #00B3C6 !important;                text-decoration: none !important;              }              .graf--h3 > a {                color: #00B3C6 !important;                text-decoration: none !important;              }              a.graf--mention {                color: #535150 !important;                text-decoration: underline !important;                font-weight: 700;              }              .graf--h2 {                font-size: 24px;                padding: 0;                max-width: 740px;                text-align: left;                letter-spacing: 1px;                font-weight: 700;                margin-top: 34px;                line-height: 1.5;              }              .graf--h3 {                font-size: 18px;                padding: 0;                max-width: 740px;                text-align: left;                letter-spacing: 1px;                font-weight: 700;                margin-top: 28px;                line-height: 1.5;              }              .graf--li {                font-size: 16px;                padding: 0px 0px 0px 4px;                font-weight: 400;                letter-spacing: 0px;                list-style-position: outside;                text-align:left;                margin-left: 24px;              }              .graf--hr {                width: 100%;                margin: 0px auto;                transform: translateY(-50%);                position: relative;                padding: 0px;                text-align: left;                max-width: 740px;                margin: 0 auto;              }              .graf--hr hr {                height: 0;              }              .graf--blockquote {                padding: 10px 0px 10px 16px;                font-size: 16px;                color: #7A7574;                letter-spacing: 1px;                margin: 28px 0px;                border-left: 4px solid #DDD9D8;                width: 100%;                max-width: 740px;                text-align: left;              }              .graf--quotesSpecial {                display: table;                color: #7A7574;                position: relative;                padding: 31.5px 40px;                text-align: center;                letter-spacing: 0px;                position: relative;                margin: 29px auto;                font-family: "Microsoft JhengHei fixed", "Helvetica Neue", "Microsoft JhengHei", Helvetica, "Segoe UI", Tahoma, Arial, sans-serif;                font-size: 16px;                -webkit-box-ordinal-group: 1;                -webkit-box-flex: 0;              }              .embed-wrapper {                max-width: 740px;                border: 1px solid #DDD9D8;                display: block;                padding: 12px;                border-radius: 8px;                margin: 12px 0px;                text-decoration: none !important;              }              .embed-title {                font-size: 16px;                font-weight: 700;                color: #535150;                margin-bottom: 8px;                text-align: left;                line-height: 1.5;                text-decoration: none !important;              }              .embed-description {                width: 100%;                font-size: 14px;                color: #7A7574;                line-height: 1.5;                max-height: 150px;                text-align: left;                overflow: hidden;                padding: 12px 0px;              }              .embed-url > a {                width: 100%;                font-size: 14px;                color: #141413 !important;                text-decoration: none !important;                line-height: 1.5;                text-align: left;              }                            .embed-thumbnail-wrapper {                padding-left: 12px;              }              .embed-thumbnail {                width:100px;                border-radius: 8px;              }              pre {                background: #F6F6F6;                border-radius: 8px;                padding: 16px;                font-size: 16px;                color: #535150;                line-height: 180%;                text-align: left;              }              .lexical__textBold {                font-weight: bold;              }              .lexical__textItalic {                font-style: italic;              }              .lexical__textUnderline {                text-decoration: underline;              }              .lexical__textStrikethrough {                text-decoration: line-through;              }              .lexical__textUnderlineStrikethrough {                text-decoration: underline line-through;              }              .lexical__textSubscript {                font-size: 0.8em;                vertical-align: sub;              }              .lexical__textSuperscript {                font-size: 0.8em;                vertical-align: super;              }              .lexical__textCode {                background-color: rgb(240, 242, 245);                padding: 1px 0.25rem;                font-family: Menlo, Consolas, Monaco, monospace;                font-size: 94%;              }            </style></head><body><div class="article-container"><div class="graf--img center"><div class="lexical__imageWrapper"><img src="https://images.vocus.cc/8dc1fd4b-1191-4770-af2a-6099a59366b2.jpg" data-src="https://d2a6d2ofes041u.cloudfront.net/resize?norotation=true&quality=80&url=https%3A%2F%2Fimages.vocus.cc%2F8dc1fd4b-1191-4770-af2a-6099a59366b2.jpg&width=594&sign=uNpkm4zoHMG2y-60bGBb8--EvMsY1jtpwkpG1rcMXLc" class="lazy" data-original-src="https://images.vocus.cc/8dc1fd4b-1191-4770-af2a-6099a59366b2.jpg" data-lowquality="false" data-width="594" data-height="500" data-retry="0" onerror="Number(this.dataset.retry) > 4 ? this.src='/static/default-error-img.svg': (() => {this.src=this.dataset.originalSrc; this.dataset.retry = Number(this.dataset.retry)+1;})()" alt="Graph from Nvidia Blog.  The graph illustrates that the growth in computing demand for transformer-based models is outpacing that of traditional machine learning models."></div><div class="captionTheme__wrapper"><a class="captionTheme__link" href="https://blogs.nvidia.com/blog/what-is-a-transformer-model/" target="_blank" rel="noreferrer noopener">Graph from Nvidia Blog.  The graph illustrates that the growth in computing demand for transformer-based models is outpacing that of traditional machine learning models.</a></div></div><p class="graf--p" dir="ltr"><span style="white-space: pre-wrap;">5 年前在做 ML System 研究時，我們看見 ML Job 所需要的算力需求，已經超過硬體成長的 Moore’s Law。有鑑於此，如何有效的分散 ML Workload，便是當年的最大課題。</span></p><p class="graf--p" dir="ltr"><span style="white-space: pre-wrap;">5 年後的現在，ML 進入 LLM 時代。傳統 ML 的算力需求成長，是每兩年 8 倍。LLM 的算力需求成長，是每兩年 275 倍。因此，研究這個問題的急迫程度，可說是提高了數十倍 XD</span></p><p class="graf--p" dir="ltr"><span style="white-space: pre-wrap;">上次我們已經聊過 On-Device AI ，這次我們將轉向 Server Side，聊聊我們該怎麼分散化 ML Jobs。</span></p><hr><h2 class="graf--h2" dir="ltr"><span style="white-space: pre-wrap;">分散式的各種切法</span></h2><p class="graf--p"><br></p><div class="graf--img center"><div class="lexical__imageWrapper"><img src="https://images.vocus.cc/56b4d642-2ea7-4ccf-939e-2a5cfdfb0198.webp" data-src="https://d2a6d2ofes041u.cloudfront.net/resize?norotation=true&quality=80&url=https%3A%2F%2Fimages.vocus.cc%2F56b4d642-2ea7-4ccf-939e-2a5cfdfb0198.webp&width=740&sign=TquOO1d04_SpwSSZ_7qmKbBBWoFlydDDSMmCtOtADOA" class="lazy" data-original-src="https://images.vocus.cc/56b4d642-2ea7-4ccf-939e-2a5cfdfb0198.webp" data-lowquality="false" data-width="1316" data-height="687" data-retry="0" onerror="Number(this.dataset.retry) > 4 ? this.src='/static/default-error-img.svg': (() => {this.src=this.dataset.originalSrc; this.dataset.retry = Number(this.dataset.retry)+1;})()" alt="From ChainerMN."></div><div class="captionTheme__wrapper"><a class="captionTheme__link" href="https://chainermn.readthedocs.io/en/stable/tutorial/overview.html" target="_blank" rel="noreferrer noopener">From ChainerMN.</a></div></div><p class="graf--p" dir="ltr"><span style="white-space: pre-wrap;">講到分散式訓練 ( Distributed Training )，直覺就有該怎麼分、以及該怎麼合。</span></p><p class="graf--p" dir="ltr"><span style="white-space: pre-wrap;">廣義上來說，分法有兩種：Data Parallelism 與 Model Parallelism。</span></p><p class="graf--p" dir="ltr"><span style="white-space: pre-wrap;">Data Parallelism 是將 Dataset 本身切開，一部分 data 給 device 1 跑、另一部分給 device 2 跑。</span></p><p class="graf--p" dir="ltr"><span style="white-space: pre-wrap;">跑完以後，各自在將 gradient 互相分享，更新參數，完成一次 batch run。</span></p><p class="graf--p" dir="ltr"><span style="white-space: pre-wrap;">Model Parallelism 則會將 Model 本身拆開。比如說，一個 6 layer 的 model ，前 3 給 device 1 跑、後 3 給 device 2 跑。</span></p><hr><h2 class="graf--h2" dir="ltr"><span style="white-space: pre-wrap;">單純切還是太笨了</span></h2><h3 class="graf--h3" dir="ltr"><span style="white-space: pre-wrap;">Data Parallelism 的合併問題</span></h3><p class="graf--p" dir="ltr"><span style="white-space: pre-wrap;">然而 Data Parallelism 切完以後，就有如何分享成果、 Gradient Aggregation 的問題。</span></p><p class="graf--p" dir="ltr"><span style="white-space: pre-wrap;">基本上，有分為 Synchronize 的方法及 Asynchronize 的方法。</span></p><p class="graf--p" dir="ltr"><span style="white-space: pre-wrap;">Synchronize 亦指，等全部 device train 完以後，再一起 sync。</span></p><p class="graf--p" dir="ltr"><span style="white-space: pre-wrap;">當然，只要任一個 device 跑得特別慢，全部就要停下來等他。</span></p><p class="graf--p"><br></p><div class="graf--img float"><div class="lexical__imageWrapper"><img src="https://images.vocus.cc/cee21359-6969-42e7-86e1-fdb822f91c45.png" data-src="https://d2a6d2ofes041u.cloudfront.net/resize?compression=6&norotation=true&url=https%3A%2F%2Fimages.vocus.cc%2Fcee21359-6969-42e7-86e1-fdb822f91c45.png&width=740&sign=DtrREE9g5jAoblq_WaBm5FqoVJRh4eY7sgpv3KjFVKI" class="lazy" data-original-src="https://images.vocus.cc/cee21359-6969-42e7-86e1-fdb822f91c45.png" data-lowquality="false" data-width="999" data-height="696" data-retry="0" onerror="Number(this.dataset.retry) > 4 ? this.src='/static/default-error-img.svg': (() => {this.src=this.dataset.originalSrc; this.dataset.retry = Number(this.dataset.retry)+1;})()" alt="From Tensorflow"></div><div class="captionTheme__wrapper"><p class="captionTheme__paragraph">From Tensorflow</p></div></div><p class="graf--p" dir="ltr"><span style="white-space: pre-wrap;">Asynchronize 意指，有一個共享的 Parameter Server，負責收集大家的 gradient，並和大家溝通。</span></p><p class="graf--p" dir="ltr"><span style="white-space: pre-wrap;">各 Device 將不再互等，只要跟 Parameter Server 一直 update 大家的成果即可。</span></p><p class="graf--p" dir="ltr"><span style="white-space: pre-wrap;">當然，每個 Device 跑速不同，收集到的 gradient 可能不精確，準確度不一定比較好。</span></p><h3 class="graf--h3" dir="ltr"><span style="white-space: pre-wrap;">Model Parallelism 的相依問題</span></h3><p class="graf--p" dir="ltr"><span style="white-space: pre-wrap;">Model Parallelism 也有相依性的問題。簡單的說，如果 Device 1 還沒 train 玩，Device 2 只能乾等。</span></p><p class="graf--p" dir="ltr"><span style="white-space: pre-wrap;">因此，近年來的 Pipeline Parallelism，便為了解決這問題。</span></p><p class="graf--p" dir="ltr"><span style="white-space: pre-wrap;">《</span><a href="https://arxiv.org/abs/2107.06925" target="_blank" rel="noreferrer noopener"><span style="white-space: pre-wrap;">Chimera: Efficient Training Large-Scale Neural Networks with Bidirectional Pipelines</span></a><span style="white-space: pre-wrap;">》便提出，如果我們能將各 Model、各 batch run，以相互交叉的方式排序，便可以極大化提升 device 使用率。</span></p><div class="graf--img center"><div class="lexical__imageWrapper"><img src="https://images.vocus.cc/6470f6cd-601d-4e0d-b950-b1ecef09a5ef.png" data-src="https://d2a6d2ofes041u.cloudfront.net/resize?compression=6&norotation=true&url=https%3A%2F%2Fimages.vocus.cc%2F6470f6cd-601d-4e0d-b950-b1ecef09a5ef.png&width=740&sign=YDrQ985cCoZFzlPhsuE01Od4P5FnhP88RU8XUnGv6jc" class="lazy" data-original-src="https://images.vocus.cc/6470f6cd-601d-4e0d-b950-b1ecef09a5ef.png" data-lowquality="false" data-width="1037" data-height="314" data-retry="0" onerror="Number(this.dataset.retry) > 4 ? this.src='/static/default-error-img.svg': (() => {this.src=this.dataset.originalSrc; this.dataset.retry = Number(this.dataset.retry)+1;})()" alt="From paper: Chimera: Efficiently Training Large-Scale Neural Networks with Bidirectional Pipelines"></div><div class="captionTheme__wrapper"><p class="captionTheme__paragraph">From paper: Chimera: Efficiently Training Large-Scale Neural Networks with Bidirectional Pipelines</p></div></div><hr><h2 class="graf--h2" dir="ltr"><b><strong class="lexical__textBold" style="white-space: pre-wrap;">跨越節點</strong></b></h2><p class="graf--p" dir="ltr"><span style="white-space: pre-wrap;">上述平行化方法，我們都只討論 Model Training 都只在一個機器上發生。</span></p><p class="graf--p" dir="ltr"><span style="white-space: pre-wrap;">現今 LLM 的世代，模型在大多數情況，都擠不進一台機器，必須多台機器、甚至 multiple clusters。</span></p><p class="graf--p" dir="ltr"><span style="white-space: pre-wrap;">Topology Scheduling 便成為最大課題。當 communication 已經 over network，就要考慮 network 可能斷、network 有 hotspot 等因素。</span></p><p class="graf--p" dir="ltr"><span style="white-space: pre-wrap;">實務上，學界也會針對 Intra-node（一個節點內）、Inter-node（多個節點）分開討論、甚至一起討論。</span></p><h2 class="graf--h2" dir="ltr"><span style="white-space: pre-wrap;">還有更多</span></h2><p class="graf--p" dir="ltr"><span style="white-space: pre-wrap;">上述大多只提及 Model Training 的平行化方法。實際上，還有 Serving、甚至是多重 workloads 的角度可以切入，也會在這個系列中持續探索，非常歡迎大家追蹤這個沙龍，就不會錯過任何文章！</span></p></div></body></html>

以行動支持創作者！付費即可解鎖

軟體開發

提供一條簡單公式、一套盤點思路，幫助你快速算出去日本自助旅遊需要準備多少日幣現金！

逗點的沙龍

去日本自助旅行要帶多少日幣現金？最新經驗談

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。



回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

曼徹的矽谷旅記 Mencher’s Travelogue

ML Infra 一大戰場 - 分散式訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。



以下陳述任務 (Task)、模型 (Model)、微調 (Fine-Tuning)、GLUE (General Language Understanding Evalu

AI說書 - 從0開始 - 88

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。



新模型和 Human Baselines 排名將不斷變化，Human Baselines 的位置自從基礎模型出現以來，它就不再具有多大意義了，這些排名只是表明經典 NL

AI說書 - 從0開始 - 85

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。



Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。



Pretrained Mo

AI說書 - 從0開始 - 82

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。



Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin

AI說書 - 從0開始 - 69



我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。



目前我們已經完成：

Single-Head Attention 數學說明：AI說書 - 從0開始 - 52

Multi-Head Attention 數學說明：

AI說書 - 從0開始 - 61

閱讀書評

學習

職場

三分鐘學AI

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

旅美工程師，閒談矽谷與北美的各種樣貌。
#矽谷 #工程師生涯 #旅行 #軟體工程 #個人成長

Medium: medium.com/mencher-publication

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。



在 AI說書 - 從0開始 - 52 中，我們已經解析完 Attention 機制如何運作的，以下延伸至 Multi-Head Attention：



Head 1

AI說書 - 從0開始 - 53

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。



首先先展示 Transformer 的架構圖：

可以看到架構中不再出現 RNN 、 LSTM 、 CNN 等物件，因為 Recurrence 已被摒棄。 



AI說書 - 從0開始 - 39

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。



我們已經在AI說書 - 從0開始 - 17中，介紹了大型語言模型 (LLM)世界裡面常用到的Token，現在我們來談談OpenAI的GPT模型如何利用Inference

AI說書 - 從0開始 - 18

<div class="lexical__image center"><div class="lexical__imageWrapper"><img src="https://resize-image.vocus.cc/resize?norotation=true&amp;quality=80&amp;url=https%3A%2F%2Fimages.vocus.cc%2F8dc1fd4b-1191-4770-af2a-6099a59366b2.jpg&amp;width=594&amp;sign=uNpkm4zoHMG2y-60bGBb8--EvMsY1jtpwkpG1rcMXLc" data-src="https://resize-image.vocus.cc/resize?norotation=true&amp;quality=80&amp;url=https%3A%2F%2Fimages.vocus.cc%2F8dc1fd4b-1191-4770-af2a-6099a59366b2.jpg&amp;width=594&amp;sign=uNpkm4zoHMG2y-60bGBb8--EvMsY1jtpwkpG1rcMXLc" data-loaded="true" data-original-src="https://images.vocus.cc/8dc1fd4b-1191-4770-af2a-6099a59366b2.jpg" data-lowquality="false" data-width="594" data-height="500" data-retry="0" onerror="Number(this.dataset.retry) > 4 ? this.src='/static/default-error-img.svg': (() => {this.src=this.dataset.originalSrc; this.dataset.retry = Number(this.dataset.retry)+1;})()" alt="Graph from Nvidia Blog.  The graph illustrates that the growth in computing demand for transformer-based models is outpacing that of traditional machine learning models."></div><div class="captionTheme__wrapper"><a class="captionTheme__link" href="https://blogs.nvidia.com/blog/what-is-a-transformer-model/" target="_blank" rel="noreferrer noopener">Graph from Nvidia Blog.  The graph illustrates that the growth in computing demand for transformer-based models is outpacing that of traditional machine learning models.</a></div></div><p class="lexical__paragraph" dir="ltr"><span style="white-space: pre-wrap;">5 年前在做 ML System 研究時，我們看見 ML Job 所需要的算力需求，已經超過硬體成長的 Moore’s Law。有鑑於此，如何有效的分散 ML Workload，便是當年的最大課題。</span></p><p class="lexical__paragraph" dir="ltr"><span style="white-space: pre-wrap;">5 年後的現在，ML 進入 LLM 時代。傳統 ML 的算力需求成長，是每兩年 8 倍。LLM 的算力需求成長，是每兩年 275 倍。因此，研究這個問題的急迫程度，可說是提高了數十倍 XD</span></p><p class="lexical__paragraph" dir="ltr"><span style="white-space: pre-wrap;">上次我們已經聊過 On-Device AI ，這次我們將轉向 Server Side，聊聊我們該怎麼分散化 ML Jobs。</span></p><hr><h2 class="lexical__h2" dir="ltr"><span style="white-space: pre-wrap;">分散式的各種切法</span></h2><p class="lexical__paragraph"><br></p><div class="lexical__image center"><div class="lexical__imageWrapper"><img src="https://resize-image.vocus.cc/resize?norotation=true&amp;quality=80&amp;url=https%3A%2F%2Fimages.vocus.cc%2F56b4d642-2ea7-4ccf-939e-2a5cfdfb0198.webp&amp;width=740&amp;sign=TquOO1d04_SpwSSZ_7qmKbBBWoFlydDDSMmCtOtADOA" data-src="https://resize-image.vocus.cc/resize?norotation=true&amp;quality=80&amp;url=https%3A%2F%2Fimages.vocus.cc%2F56b4d642-2ea7-4ccf-939e-2a5cfdfb0198.webp&amp;width=740&amp;sign=TquOO1d04_SpwSSZ_7qmKbBBWoFlydDDSMmCtOtADOA" data-loaded="true" data-original-src="https://images.vocus.cc/56b4d642-2ea7-4ccf-939e-2a5cfdfb0198.webp" data-lowquality="false" data-width="1316" data-height="687" data-retry="0" onerror="Number(this.dataset.retry) > 4 ? this.src='/static/default-error-img.svg': (() => {this.src=this.dataset.originalSrc; this.dataset.retry = Number(this.dataset.retry)+1;})()" alt="From ChainerMN."></div><div class="captionTheme__wrapper"><a class="captionTheme__link" href="https://chainermn.readthedocs.io/en/stable/tutorial/overview.html" target="_blank" rel="noreferrer noopener">From ChainerMN.</a></div></div><p class="lexical__paragraph" dir="ltr"><span style="white-space: pre-wrap;">講到分散式訓練 ( Distributed Training )，直覺就有該怎麼分、以及該怎麼合。</span></p><p class="lexical__paragraph" dir="ltr"><span style="white-space: pre-wrap;">廣義上來說，分法有兩種：Data Parallelism 與 Model Parallelism。</span></p><p class="lexical__paragraph" dir="ltr"><span style="white-space: pre-wrap;">Data Parallelism 是將 Dataset 本身切開，一部分 data 給 device 1 跑、另一部分給 device 2 跑。</span></p><p class="lexical__paragraph" dir="ltr"><span style="white-space: pre-wrap;">跑完以後，各自在將 gradient 互相分享，更新參數，完成一次 batch run。</span></p><p class="lexical__paragraph" dir="ltr"><span style="white-space: pre-wrap;">Model Parallelism 則會將 Model 本身拆開。比如說，一個 6 layer 的 model ，前 3 給 device 1 跑、後 3 給 device 2 跑。</span></p><hr><h2 class="lexical__h2" dir="ltr"><span style="white-space: pre-wrap;">單純切還是太笨了</span></h2><h3 class="lexical__h3" dir="ltr"><span style="white-space: pre-wrap;">Data Parallelism 的合併問題</span></h3><p class="lexical__paragraph" dir="ltr"><span style="white-space: pre-wrap;">然而 Data Parallelism 切完以後，就有如何分享成果、 Gradient Aggregation 的問題。</span></p><p class="lexical__paragraph" dir="ltr"><span style="white-space: pre-wrap;">基本上，有分為 Synchronize 的方法及 Asynchronize 的方法。</span></p><p class="lexical__paragraph" dir="ltr"><span style="white-space: pre-wrap;">Synchronize 亦指，等全部 device train 完以後，再一起 sync。</span></p><p class="lexical__paragraph" dir="ltr"><span style="white-space: pre-wrap;">當然，只要任一個 device 跑得特別慢，全部就要停下來等他。</span></p><p class="lexical__paragraph"><br></p><div class="lexical__image float"><div class="lexical__imageWrapper"><img src="https://resize-image.vocus.cc/resize?compression=6&amp;norotation=true&amp;url=https%3A%2F%2Fimages.vocus.cc%2Fcee21359-6969-42e7-86e1-fdb822f91c45.png&amp;width=740&amp;sign=DtrREE9g5jAoblq_WaBm5FqoVJRh4eY7sgpv3KjFVKI" data-src="https://resize-image.vocus.cc/resize?compression=6&amp;norotation=true&amp;url=https%3A%2F%2Fimages.vocus.cc%2Fcee21359-6969-42e7-86e1-fdb822f91c45.png&amp;width=740&amp;sign=DtrREE9g5jAoblq_WaBm5FqoVJRh4eY7sgpv3KjFVKI" data-loaded="true" data-original-src="https://images.vocus.cc/cee21359-6969-42e7-86e1-fdb822f91c45.png" data-lowquality="false" data-width="999" data-height="696" data-retry="0" onerror="Number(this.dataset.retry) > 4 ? this.src='/static/default-error-img.svg': (() => {this.src=this.dataset.originalSrc; this.dataset.retry = Number(this.dataset.retry)+1;})()" alt="From Tensorflow"></div><div class="captionTheme__wrapper"><p class="captionTheme__paragraph">From Tensorflow</p></div></div><p class="lexical__paragraph" dir="ltr"><span style="white-space: pre-wrap;">Asynchronize 意指，有一個共享的 Parameter Server，負責收集大家的 gradient，並和大家溝通。</span></p><p class="lexical__paragraph" dir="ltr"><span style="white-space: pre-wrap;">各 Device 將不再互等，只要跟 Parameter Server 一直 update 大家的成果即可。</span></p><p class="lexical__paragraph" dir="ltr"><span style="white-space: pre-wrap;">當然，每個 Device 跑速不同，收集到的 gradient 可能不精確，準確度不一定比較好。</span></p><h3 class="lexical__h3" dir="ltr"><span style="white-space: pre-wrap;">Model Parallelism 的相依問題</span></h3><p class="lexical__paragraph" dir="ltr"><span style="white-space: pre-wrap;">Model Parallelism 也有相依性的問題。簡單的說，如果 Device 1 還沒 train 玩，Device 2 只能乾等。</span></p><p class="lexical__paragraph" dir="ltr"><span style="white-space: pre-wrap;">因此，近年來的 Pipeline Parallelism，便為了解決這問題。</span></p><p class="lexical__paragraph" dir="ltr"><span style="white-space: pre-wrap;">《</span><a href="https://arxiv.org/abs/2107.06925" target="_blank" rel="noreferrer noopener"><span style="white-space: pre-wrap;">Chimera: Efficient Training Large-Scale Neural Networks with Bidirectional Pipelines</span></a><span style="white-space: pre-wrap;">》便提出，如果我們能將各 Model、各 batch run，以相互交叉的方式排序，便可以極大化提升 device 使用率。</span></p><div class="lexical__image center"><div class="lexical__imageWrapper"><img src="https://resize-image.vocus.cc/resize?compression=6&amp;norotation=true&amp;url=https%3A%2F%2Fimages.vocus.cc%2F6470f6cd-601d-4e0d-b950-b1ecef09a5ef.png&amp;width=740&amp;sign=YDrQ985cCoZFzlPhsuE01Od4P5FnhP88RU8XUnGv6jc" data-src="https://resize-image.vocus.cc/resize?compression=6&amp;norotation=true&amp;url=https%3A%2F%2Fimages.vocus.cc%2F6470f6cd-601d-4e0d-b950-b1ecef09a5ef.png&amp;width=740&amp;sign=YDrQ985cCoZFzlPhsuE01Od4P5FnhP88RU8XUnGv6jc" class="lazy" data-loaded="false" data-original-src="https://images.vocus.cc/6470f6cd-601d-4e0d-b950-b1ecef09a5ef.png" data-lowquality="true" data-width="1037" data-height="314" data-retry="0" onerror="Number(this.dataset.retry) > 4 ? this.src='/static/default-error-img.svg': (() => {this.src=this.dataset.originalSrc; this.dataset.retry = Number(this.dataset.retry)+1;})()" alt="From paper: Chimera: Efficiently Training Large-Scale Neural Networks with Bidirectional Pipelines"></div><div class="captionTheme__wrapper"><p class="captionTheme__paragraph">From paper: Chimera: Efficiently Training Large-Scale Neural Networks with Bidirectional Pipelines</p></div></div><hr><h2 class="lexical__h2" dir="ltr"><b><strong class="lexical__textBold" style="white-space: pre-wrap;">跨越節點</strong></b></h2><p class="lexical__paragraph" dir="ltr"><span style="white-space: pre-wrap;">上述平行化方法，我們都只討論 Model Training 都只在一個機器上發生。</span></p><p class="lexical__paragraph" dir="ltr"><span style="white-space: pre-wrap;">現今 LLM 的世代，模型在大多數情況，都擠不進一台機器，必須多台機器、甚至 multiple clusters。</span></p><p class="lexical__paragraph" dir="ltr"><span style="white-space: pre-wrap;">Topology Scheduling 便成為最大課題。當 communication 已經 over network，就要考慮 network 可能斷、network 有 hotspot 等因素。</span></p><p class="lexical__paragraph" dir="ltr"><span style="white-space: pre-wrap;">實務上，學界也會針對 Intra-node（一個節點內）、Inter-node（多個節點）分開討論、甚至一起討論。</span></p><h2 class="lexical__h2" dir="ltr"><span style="white-space: pre-wrap;">還有更多</span></h2><p class="lexical__paragraph" dir="ltr"><span style="white-space: pre-wrap;">上述大多只提及 Model Training 的平行化方法。實際上，還有 Serving、甚至是多重 workloads 的角度可以切入，也會在這個系列中持續探索，非常歡迎大家追蹤這個沙龍，就不會錯過任何文章！</span></p>