[探索] 使用 Mixture of Experts 建立多任務學習框架

更新於 2025/01/07發佈於 2021/01/08閱讀時間約 3 分鐘

多任務學習（Multi-task Learnig）

多任務學習指的是使用多個相關的任務目標（Multiple objectives）來學習共享的表示方法。比起單一任務的學習方式，多任務學習會讓模型能夠使用在未曾見過的新任務中，也更易於泛化（generalize）。在這裡，相關性指的是能夠使用同樣的特徵來做多任務學習，或擁有相同的分佈。多任務學習有兩類學習方法：一是如前所提，使用多個相關任務目標，另一是使用一個主要任務，但搭配多個輔助任務（Auxiliary tasks）來幫助學習主要任務。

如何透過多任務學習來提升模型的泛化能力，可以由下列五點來說明：

非明顯資料擴增（Implicit data augmentation）使用多個相關任務的標註，多任務學習可以平均掉與任務獨立，和資料相依的噪點，而使模型更易最佳泛化。
專注學習焦點（Attention focusing）：多任務學習可以使模型專注在任務共享的特徵上，並可藉由其他任務提供判定習得的特徵是否與任務無關的證據。
透過其他任務來學習重要特徵（Eavesdropping）：因為每個任務學習共享特徵的難易度不同，多任務學習可以透過較易學習共享特徵的任務來直接學習與任務相關的重要特徵。
偏好學習特定特徵（Representation bias）：多任務學習會偏好學習被相關任務共享的特徵。
調節模型（Regularization）：透過學習共享特徵，多任務學習可以有效地降低過度擬合。

在《Youtube 如何推薦你下一個影片？》[1] 一文介紹了 Google 如何利用一個多任務學習的學習演算法，建造一個影片的推薦系統。所使用的架構是 wide (shallow tower) and deep (Multi-gate Mixture of Experts, MMoE) 。在訓練目標上則採用多個目標（objectives），分別是使用者的點閱率（engagement objective）和滿意度（satisfaction objective）。點擊率和欣賞影片的時間都屬於使用者的點閱率。而按讚或移除則屬於滿意度。

以行動支持創作者！付費即可解鎖

本篇內容共 6571 字、0 則留言，僅發佈於翻滾吧！駭客女孩！你目前無法檢視以下內容，可能因為尚未登入，或沒有該房間的查看權限。

#DeepLearning

#MultitaaskLearning

#MultigateMixtureofExperts

Rene Wang的沙龍翻滾吧！駭客女孩！給門外漢們的深度學習

留言

留言分享你的想法！

Rene Wang的沙龍

70會員

35內容數

<p>專為年輕的女孩設計的科學／資訊科技寫作計畫，希望讓每位女孩在體脂肪、青春痘與暗戀對象之外，還能找到新的生活樂趣。</p>

Rene Wang的沙龍的其他內容

2021/03/19

[探索] 語言模型基礎：Subword algorithms

一個好的自然語言模型，若出現了語言模型的 vocabulary set 未曾收錄的單字，語言模型就會產生 Out-of-Vocabulary (OOV)。本文介紹 subword algorithms 介於 word-level 和 character-level 解決 OOV 的方法。

2021/03/19

[探索] 語言模型基礎：Subword algorithms

2021/02/26

網路裁減（Network Pruning）和解構樂透彩卷假說

本篇文章前半段先對網路裁減做簡單介紹，後半段針對彩卷假說作文獻式的探討。網路裁減是一種重新發現等價小網路的方法，主要目的在為 over-parameterized 的方式訓練而成的類神經網路提供一個精簡版的網路，有助於在資源受限的平台上運行。彩卷假說則是探討權重初始值和網路裁減之間的關係。

2021/02/26

網路裁減（Network Pruning）和解構樂透彩卷假說

2020/12/16

[探索] 門外漢的梯度下降變奏曲（下）

連同上兩篇文章，我們介紹了機械學習裡的基石，並踩著這些基石了解了改變資料餵送方式，以及動態改變學習率或在更新項中加入動量的方法。我們可以看到這些梯度下降的變化，主要是解決兩個問題：梯度震盪和非最佳的局部最小值造成學習停滯不前的問題。在這篇文章中，我們著重動量和 Adam 的方法來達成克服以上的問題。