付費限定方格精選

[探索] 使用 Mixture of Experts 建立多任務學習框架

2021/01/08閱讀時間約 16 分鐘

多任務學習（Multi-task Learnig）

多任務學習指的是使用多個相關的任務目標（Multiple objectives）來學習共享的表示方法。比起單一任務的學習方式，多任務學習會讓模型能夠使用在未曾見過的新任務中，也更易於泛化（generalize）。在這裡，相關性指的是能夠使用同樣的特徵來做多任務學習，或擁有相同的分佈。多任務學習有兩類學習方法：一是如前所提，使用多個相關任務目標，另一是使用一個主要任務，但搭配多個輔助任務（Auxiliary tasks）來幫助學習主要任務。

如何透過多任務學習來提升模型的泛化能力，可以由下列五點來說明：

非明顯資料擴增（Implicit data augmentation）使用多個相關任務的標註，多任務學習可以平均掉與任務獨立，和資料相依的噪點，而使模型更易最佳泛化。
專注學習焦點（Attention focusing）：多任務學習可以使模型專注在任務共享的特徵上，並可藉由其他任務提供判定習得的特徵是否與任務無關的證據。
透過其他任務來學習重要特徵（Eavesdropping）：因為每個任務學習共享特徵的難易度不同，多任務學習可以透過較易學習共享特徵的任務來直接學習與任務相關的重要特徵。
偏好學習特定特徵（Representation bias）：多任務學習會偏好學習被相關任務共享的特徵。
調節模型（Regularization）：透過學習共享特徵，多任務學習可以有效地降低過度擬合。

在《Youtube 如何推薦你下一個影片？》[1] 一文介紹了 Google 如何利用一個多任務學習的學習演算法，建造一個影片的推薦系統。所使用的架構是 wide (shallow tower) and deep (Multi-gate Mixture of Experts, MMoE) 。在訓練目標上則採用多個目標（objectives），分別是使用者的點閱率（engagement objective）和滿意度（satisfaction objective）。點擊率和欣賞影片的時間都屬於使用者的點閱率。而按讚或移除則屬於滿意度。

以行動支持創作者！付費即可解鎖

本篇內容共 6571 字、0 則留言，僅發佈於翻滾吧！駭客女孩！你目前無法檢視以下內容，可能因為尚未登入，或沒有該房間的查看權限。

#DeepLearning

#MultitaaskLearning

#MultigateMixtureofExperts

Rene Wang的沙龍翻滾吧！駭客女孩！給門外漢們的深度學習

Rene Wang的沙龍

71會員

35內容數

<p>專為年輕的女孩設計的科學／資訊科技寫作計畫，希望讓每位女孩在體脂肪、青春痘與暗戀對象之外，還能找到新的生活樂趣。</p>

留言0

查看全部

發表第一個留言支持創作者！

Rene Wang的沙龍的其他內容

[探索] 門外漢的梯度下降變奏曲（下）

連同上兩篇文章，我們介紹了機械學習裡的基石，並踩著這些基石了解了改變資料餵送方式，以及動態改變學習率或在更新項中加入動量的方法。我們可以看到這些梯度下降的變化，主要是解決兩個問題：梯度震盪和非最佳的局部最小值造成學習停滯不前的問題。在這篇文章中，我們著重動量和 Adam 的方法來達成克服以上的問題。

#深度學習 #最陡梯度下降法 #動量

[探索] 門外漢的類神經網路導覽

這篇文章從類神經網路的起源，也就是單神經元的感知器。簡單的感知器迭代演算法使單神經元可以學習，但卻無法學習超過非線性，如 XOR 的資料分布。另外，本文還介紹了 Logistic regression，藉由透過非線性轉換來使線性輸出近似於機率分佈。最後則以一場大師賭局結束(SVM vs NN)。

#類神經網路 #SVM #YannLeCun

[觀點] 人工智慧的回顧與展望 2019

在 2018 年，筆者介紹了普華永道（PwC）關於人工智慧的十項預測。我們將要藉由這篇文章，先來回顧在過去的一年中，電腦視覺和自然語言領域有什麼新的發展。在本文的最後，則提及 PwC 在今年提出的六項建議，主要使已投資 AI 的公司能成功商轉，以及關於自動化資料處理和機械學習的現況。

#人工智慧 #自動化機械學習 #電腦視覺

[探索] 門外漢的類神經物體偵測導覽

本文提到如何以類神經網路為主的深度學習方法，來進行物體偵測。文中包括基礎的物體偵測簡介：如影像問題分類，影像處理和傳統非類神經網路為主的物體偵測方法。這些傳統方法，仍可以在類神經網路的方法中找到其應用。最後簡略敘述當前使用深度卷積網路作為物體偵測的主要研究方向，並對學術界常用的訓練資料集做分析介紹。

#深度學習 #物體偵測 #卷積網路