付費限定方格精選

[探索] 使用 Mixture of Experts 建立多任務學習框架

閱讀時間約 16 分鐘


多任務學習(Multi-task Learnig)

多任務學習指的是使用多個相關的任務目標(Multiple objectives)來學習共享的表示方法。比起單一任務的學習方式,多任務學習會讓模型能夠使用在未曾見過的新任務中,也更易於泛化(generalize)。在這裡,相關性指的是能夠使用同樣的特徵來做多任務學習,或擁有相同的分佈。多任務學習有兩類學習方法:一是如前所提,使用多個相關任務目標,另一是使用一個主要任務,但搭配多個輔助任務(Auxiliary tasks)來幫助學習主要任務。
如何透過多任務學習來提升模型的泛化能力,可以由下列五點來說明:
  1. 非明顯資料擴增(Implicit data augmentation)使用多個相關任務的標註,多任務學習可以平均掉與任務獨立,和資料相依的噪點,而使模型更易最佳泛化。
  2. 專注學習焦點(Attention focusing:多任務學習可以使模型專注在任務共享的特徵上,並可藉由其他任務提供判定習得的特徵是否與任務無關的證據。
  3. 透過其他任務來學習重要特徵(Eavesdropping):因為每個任務學習共享特徵的難易度不同,多任務學習可以透過較易學習共享特徵的任務來直接學習與任務相關的重要特徵。
  4. 偏好學習特定特徵(Representation bias):多任務學習會偏好學習被相關任務共享的特徵。
  5. 調節模型(Regularization):透過學習共享特徵,多任務學習可以有效地降低過度擬合。
在 《Youtube 如何推薦你下一個影片?》[1] 一文介紹了 Google 如何利用一個多任務學習的學習演算法,建造一個影片的推薦系統。所使用的架構是 wide (shallow tower) and deep (Multi-gate Mixture of Experts, MMoE) 。在訓練目標上則採用多個目標(objectives),分別是使用者的點閱率(engagement objective) 和滿意度(satisfaction objective)。點擊率和欣賞影片的時間都屬於使用者的點閱率。而按讚或移除則屬於滿意度。
以行動支持創作者!付費即可解鎖
本篇內容共 6571 字、0 則留言,僅發佈於翻滾吧!駭客女孩!你目前無法檢視以下內容,可能因為尚未登入,或沒有該房間的查看權限。
avatar-img
71會員
35內容數
<p>專為年輕的女孩設計的科學/資訊科技寫作計畫,希望讓每位女孩在體脂肪、青春痘與暗戀對象之外,還能找到新的生活樂趣。</p>
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Rene Wang的沙龍 的其他內容
連同上兩篇文章,我們介紹了機械學習裡的基石,並踩著這些基石了解了改變資料餵送方式,以及動態改變學習率或在更新項中加入動量的方法。我們可以看到這些梯度下降的變化,主要是解決兩個問題:梯度震盪和非最佳的局部最小值造成學習停滯不前的問題。在這篇文章中,我們著重動量和 Adam 的方法來達成克服以上的問題。
這篇文章從類神經網路的起源,也就是單神經元的感知器。簡單的感知器迭代演算法使單神經元可以學習,但卻無法學習超過非線性,如 XOR 的資料分布。另外,本文還介紹了 Logistic regression,藉由透過非線性轉換來使線性輸出近似於機率分佈。最後則以一場大師賭局結束(SVM vs NN)。
在 2018 年,筆者介紹了普華永道(PwC)關於人工智慧的十項預測。我們將要藉由這篇文章,先來回顧在過去的一年中,電腦視覺和自然語言領域有什麼新的發展。在本文的最後,則提及 PwC 在今年提出的六項建議,主要使已投資 AI 的公司能成功商轉,以及關於自動化資料處理和機械學習的現況。
本文提到如何以類神經網路為主的深度學習方法,來進行物體偵測。文中包括基礎的物體偵測簡介:如影像問題分類,影像處理和傳統非類神經網路為主的物體偵測方法。這些傳統方法,仍可以在類神經網路的方法中找到其應用。最後簡略敘述當前使用深度卷積網路作為物體偵測的主要研究方向,並對學術界常用的訓練資料集做分析介紹。
在此篇文章終將會簡述機械學習的發展,簡介深度學習以 Sequence to Sequence 為架構,並在多場機械翻譯的學術年會,獲得成績斐然的結果。在本文中,會粗略介紹 Sequence to Sequence 架構並以 google 在 2017 對Seq2Seq 所進行的大規模參數。
目前深度學習是人工智慧領域中最熱門的研究領域,許多美國科技巨頭紛紛推出他們的深度學習架構,以期能夠在人工智慧的商業應用上,能夠給使用者最無縫的服務。在本篇文章中,會以開發者和 DevOps 的角度,來談論該如何選擇最適合公司以及個人需求的深度學習架構。
連同上兩篇文章,我們介紹了機械學習裡的基石,並踩著這些基石了解了改變資料餵送方式,以及動態改變學習率或在更新項中加入動量的方法。我們可以看到這些梯度下降的變化,主要是解決兩個問題:梯度震盪和非最佳的局部最小值造成學習停滯不前的問題。在這篇文章中,我們著重動量和 Adam 的方法來達成克服以上的問題。
這篇文章從類神經網路的起源,也就是單神經元的感知器。簡單的感知器迭代演算法使單神經元可以學習,但卻無法學習超過非線性,如 XOR 的資料分布。另外,本文還介紹了 Logistic regression,藉由透過非線性轉換來使線性輸出近似於機率分佈。最後則以一場大師賭局結束(SVM vs NN)。
在 2018 年,筆者介紹了普華永道(PwC)關於人工智慧的十項預測。我們將要藉由這篇文章,先來回顧在過去的一年中,電腦視覺和自然語言領域有什麼新的發展。在本文的最後,則提及 PwC 在今年提出的六項建議,主要使已投資 AI 的公司能成功商轉,以及關於自動化資料處理和機械學習的現況。
本文提到如何以類神經網路為主的深度學習方法,來進行物體偵測。文中包括基礎的物體偵測簡介:如影像問題分類,影像處理和傳統非類神經網路為主的物體偵測方法。這些傳統方法,仍可以在類神經網路的方法中找到其應用。最後簡略敘述當前使用深度卷積網路作為物體偵測的主要研究方向,並對學術界常用的訓練資料集做分析介紹。
在此篇文章終將會簡述機械學習的發展,簡介深度學習以 Sequence to Sequence 為架構,並在多場機械翻譯的學術年會,獲得成績斐然的結果。在本文中,會粗略介紹 Sequence to Sequence 架構並以 google 在 2017 對Seq2Seq 所進行的大規模參數。
目前深度學習是人工智慧領域中最熱門的研究領域,許多美國科技巨頭紛紛推出他們的深度學習架構,以期能夠在人工智慧的商業應用上,能夠給使用者最無縫的服務。在本篇文章中,會以開發者和 DevOps 的角度,來談論該如何選擇最適合公司以及個人需求的深度學習架構。
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Bidirectional Encoder Representations from Transformers (BERT) 只有 Encoder Layer,沒有 D
Thumbnail
本系列將討論 LLM 時代中,分散 ML workload 的各種方法。作為系列的第一篇,我們將提及 High-level 的概論,譬如分散式訓練的各種切法、Model Parallelism 的相依問題,以及改善 Network Topology 等課題。
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 下游任務是一個 Fine-Tuned 的 Transformer 任務,它從預先訓練的 Transformer 模型繼承模型和參數,故,下游任務是運行微調任務的預訓練模
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下陳述任務 (Task)、模型 (Model)、微調 (Fine-Tuning)、GLUE (General Language Understanding Evalu
我自己很喜歡同時讀多本書。 而且我會先比較每一本書的目錄, 來學習每個作者編排內容的方式。 例如機器學習就有很多的書都在教, 而且裡面的內容也可以差異很大。 有的書可能整本都是理論, 有的書整本都是程式碼, 而理論仔細去比較, 有的又更側重其計算複
Thumbnail
這篇文章介紹了《深度學習的技術》中的五大學習部分:記憶力,理解力,知識網,拓展能力與生活應用。作者分享了對於這些學習部分的心得與建議,並提供了主題相關的書籍推薦及閱讀資料。
Thumbnail
本文探討了監督式學習、分群和相似度這幾個推薦系統算法,分別討論了它們的優點、缺點以及適用場景。這些算法在推薦系統中扮演著重要角色,並透過特徵選擇與預處理、相似度度量和鄰居的選擇等關鍵因素進行深入分析。文章最後提出在選擇推薦系統算法時應該考慮的因素,以及未來的研究方向。
Thumbnail
學會如何建立合作關係和協作完成任務,是在現實職場中很重要的能力。 書本提到了一些觀點,協作對象不該一視同仁,一個偏好獨立工作的軟體工程師,要如何與一位合作型的產品經理一起協作開發一個新功能?一個協調型的培訓人員,如何和一個獨立型的老師協作改善教學品質?書中的案例或許能幫你思考這些問題的答案。
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Bidirectional Encoder Representations from Transformers (BERT) 只有 Encoder Layer,沒有 D
Thumbnail
本系列將討論 LLM 時代中,分散 ML workload 的各種方法。作為系列的第一篇,我們將提及 High-level 的概論,譬如分散式訓練的各種切法、Model Parallelism 的相依問題,以及改善 Network Topology 等課題。
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 下游任務是一個 Fine-Tuned 的 Transformer 任務,它從預先訓練的 Transformer 模型繼承模型和參數,故,下游任務是運行微調任務的預訓練模
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下陳述任務 (Task)、模型 (Model)、微調 (Fine-Tuning)、GLUE (General Language Understanding Evalu
我自己很喜歡同時讀多本書。 而且我會先比較每一本書的目錄, 來學習每個作者編排內容的方式。 例如機器學習就有很多的書都在教, 而且裡面的內容也可以差異很大。 有的書可能整本都是理論, 有的書整本都是程式碼, 而理論仔細去比較, 有的又更側重其計算複
Thumbnail
這篇文章介紹了《深度學習的技術》中的五大學習部分:記憶力,理解力,知識網,拓展能力與生活應用。作者分享了對於這些學習部分的心得與建議,並提供了主題相關的書籍推薦及閱讀資料。
Thumbnail
本文探討了監督式學習、分群和相似度這幾個推薦系統算法,分別討論了它們的優點、缺點以及適用場景。這些算法在推薦系統中扮演著重要角色,並透過特徵選擇與預處理、相似度度量和鄰居的選擇等關鍵因素進行深入分析。文章最後提出在選擇推薦系統算法時應該考慮的因素,以及未來的研究方向。
Thumbnail
學會如何建立合作關係和協作完成任務,是在現實職場中很重要的能力。 書本提到了一些觀點,協作對象不該一視同仁,一個偏好獨立工作的軟體工程師,要如何與一位合作型的產品經理一起協作開發一個新功能?一個協調型的培訓人員,如何和一個獨立型的老師協作改善教學品質?書中的案例或許能幫你思考這些問題的答案。