付費限定

訓練小模型進行逐步推導,Orca-2-7B/13B

更新 發佈閱讀 13 分鐘

微軟爸爸的員工發論文教大家如何訓練與評估model,有完整的訓練思路與評估方法,雖然本篇沒有任何獨特的Fine-tune的手法,比較不接地氣,但是仍然可以當成一個好的參考範例,可以從中學到許多評估模型的角度與關鍵指標,改天會進行總結整理。


論文主要成果:

借助逐步推導資料集,Orca-2 7B/13B能夠取得超越70B模型的成果,如下圖所示,能取得這種好成果,歸因於幾個因素的整體考量。

  1. 小模型直接回答錯誤率高,經由逐步推導資料集的建立,正確率會明顯改善不少
  2. 某些問題類型,小模型直接回答錯誤率低,inference無須特別標注嚴謹逐步推導
  3. 某些問題類型,小模型直接回答錯誤率高,inference特別標注嚴謹逐步推導
  4. 某些問題類型,大&小模型直接回答錯誤率皆高,inference特別標注嚴謹逐步推導
以行動支持創作者!付費即可解鎖
本篇內容共 5376 字、0 則留言,僅發佈於人工智慧宇宙你目前無法檢視以下內容,可能因為尚未登入,或沒有該房間的查看權限。
留言
avatar-img
留言分享你的想法!
avatar-img
無限智慧學院的沙龍
95會員
128內容數
帶你用上帝視角,針對市面上具有高度價值的影片/論文/書籍,用東方取象,與西方邏輯辯證的角度同時出發,跟著我一起來探討宇宙萬事萬物的本質,隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷,近期對於人工智慧,東方易經,西方辯證邏輯,還有佛法向內求有深度興趣。
2024/02/28
這次要介紹的這篇,使用Mask-LM的生成方式,可以達到最頂尖的FID/FVD分數,取得超越Diffusion Model的生成品質,並兼顧了生成速度,讓我們一起從MAGVIT開始,逐步理解到MAGVIT-V2,相信能讓對於最新影像生成領域有興趣的讀者,感到收穫滿滿。
Thumbnail
2024/02/28
這次要介紹的這篇,使用Mask-LM的生成方式,可以達到最頂尖的FID/FVD分數,取得超越Diffusion Model的生成品質,並兼顧了生成速度,讓我們一起從MAGVIT開始,逐步理解到MAGVIT-V2,相信能讓對於最新影像生成領域有興趣的讀者,感到收穫滿滿。
Thumbnail
2024/02/20
對於天氣的精密掌握,不僅得以改善各種生存條件,還能藉此訂定各種軍事策略,對於各種地緣政治紛爭的此刻,有其重大意義,於是各國對於快速準確的天氣預測技術,皆十分有興趣。本文介紹Google Research 的研究利用AI來預測天氣,誤差可以勝過傳統超級計算機的估算,讓我們一起看看是怎麼做到的。
Thumbnail
2024/02/20
對於天氣的精密掌握,不僅得以改善各種生存條件,還能藉此訂定各種軍事策略,對於各種地緣政治紛爭的此刻,有其重大意義,於是各國對於快速準確的天氣預測技術,皆十分有興趣。本文介紹Google Research 的研究利用AI來預測天氣,誤差可以勝過傳統超級計算機的估算,讓我們一起看看是怎麼做到的。
Thumbnail
2024/02/10
隨著生成式AI不斷的推陳出新,對於能有效壓縮這些豐富且大量內容的技術,變得至關重要,影響著傳輸速度與執行速度,本文的壓縮架構,能夠有效地做成專用IC,在同樣的畫質水準下,甚至能夠達成JPEG 1/3的壓縮後容量,此方法可應用在各種3D NeRF生成作品上面,各種VR與3D生成技術都必然會用到。
Thumbnail
2024/02/10
隨著生成式AI不斷的推陳出新,對於能有效壓縮這些豐富且大量內容的技術,變得至關重要,影響著傳輸速度與執行速度,本文的壓縮架構,能夠有效地做成專用IC,在同樣的畫質水準下,甚至能夠達成JPEG 1/3的壓縮後容量,此方法可應用在各種3D NeRF生成作品上面,各種VR與3D生成技術都必然會用到。
Thumbnail
看更多
你可能也想看
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
前期先針對整體流程模仿 可以快速理解一個主題如何拆解成不同的要素 快速取得一個學習的利基點 一個好的方式就是以完成專案為目的下去學習 為何要做Project Based的學習,而非一步一步完成課程? 因為直接做專案可以最快的碰到問題,知道自己還缺少哪方面的認知 人類無法用抽象的事物把事情
Thumbnail
前期先針對整體流程模仿 可以快速理解一個主題如何拆解成不同的要素 快速取得一個學習的利基點 一個好的方式就是以完成專案為目的下去學習 為何要做Project Based的學習,而非一步一步完成課程? 因為直接做專案可以最快的碰到問題,知道自己還缺少哪方面的認知 人類無法用抽象的事物把事情
Thumbnail
微軟爸爸發論文教大家如何訓練與評估model,有完整的訓練思路與評估方法,雖然本篇沒有任何Fine-tune的手法,比較不接地氣,但是仍然可以當成一個好的參考範例,可以從中學到許多評估模型的角度與關鍵指標,改天會進行總結整理。
Thumbnail
微軟爸爸發論文教大家如何訓練與評估model,有完整的訓練思路與評估方法,雖然本篇沒有任何Fine-tune的手法,比較不接地氣,但是仍然可以當成一個好的參考範例,可以從中學到許多評估模型的角度與關鍵指標,改天會進行總結整理。
Thumbnail
本篇精選熱點論文,基於ROPE(Rotary Position Embeddings)改善插值方式,讓模型可以在短序列(4K Tokens)進行訓練,接著在長序列(128K Tokens)僅做少數微調,甚至無須微調,就能達到泛化到極長輸入序列的能力,模型可以吞下一整本雜誌,輸出困惑度表現也能夠維持!
Thumbnail
本篇精選熱點論文,基於ROPE(Rotary Position Embeddings)改善插值方式,讓模型可以在短序列(4K Tokens)進行訓練,接著在長序列(128K Tokens)僅做少數微調,甚至無須微調,就能達到泛化到極長輸入序列的能力,模型可以吞下一整本雜誌,輸出困惑度表現也能夠維持!
Thumbnail
為了使小模型取得大模型的回答水平 這篇論文提出了三招,"大幅度"提升Mistral 7B模型的回答準確率 如果有想要把LLM微調好的人,一定不能錯過這篇
Thumbnail
為了使小模型取得大模型的回答水平 這篇論文提出了三招,"大幅度"提升Mistral 7B模型的回答準確率 如果有想要把LLM微調好的人,一定不能錯過這篇
Thumbnail
昨天自己又測試了一下,感覺還是有優化的空間,又做了一些細微調整,目前我認為這個版本非常強悍了。
Thumbnail
昨天自己又測試了一下,感覺還是有優化的空間,又做了一些細微調整,目前我認為這個版本非常強悍了。
Thumbnail
可能是目前全網最高品質給出精准分析和甚至結果的最簡單的prompt了。 請參考我的截圖,對應複製兩段內容進去,直接使用TOT,多次實測,答案精准度很高,對我自己工作也有很多的啟發。 上去就可以直接開始提問了。
Thumbnail
可能是目前全網最高品質給出精准分析和甚至結果的最簡單的prompt了。 請參考我的截圖,對應複製兩段內容進去,直接使用TOT,多次實測,答案精准度很高,對我自己工作也有很多的啟發。 上去就可以直接開始提問了。
Thumbnail
模型上線前的評估的嚴謹與否,攸關上線後模型的表現。你知道模型評估需要注意哪些細節?在評估過程的嚴謹性又可以如何分級呢?一起來看看吧!
Thumbnail
模型上線前的評估的嚴謹與否,攸關上線後模型的表現。你知道模型評估需要注意哪些細節?在評估過程的嚴謹性又可以如何分級呢?一起來看看吧!
Thumbnail
本文探討大資料對模型的影響。研究指出,大資料量對模型的語法和世界知識理解有顯著影響。固定運算資源下,DeepMind發現適應參數數量更重要,這使模型Chinchilla以較小規模但更多訓練資料,在實際任務中優於Gopher模型。這說明增大模型的規模已不具有太大意義,應增加訓練資料。
Thumbnail
本文探討大資料對模型的影響。研究指出,大資料量對模型的語法和世界知識理解有顯著影響。固定運算資源下,DeepMind發現適應參數數量更重要,這使模型Chinchilla以較小規模但更多訓練資料,在實際任務中優於Gopher模型。這說明增大模型的規模已不具有太大意義,應增加訓練資料。
Thumbnail
本文探討了大型語言模型中的特殊現象,包括頓悟現象,大模型的隱藏知識引導,以及模型越大對某些問題的理解越偏離的U型曲線。文章強調,當模型不夠理想時,我們需要更好地引導模型或了解問題的本質,而非只是增加模型的大小。
Thumbnail
本文探討了大型語言模型中的特殊現象,包括頓悟現象,大模型的隱藏知識引導,以及模型越大對某些問題的理解越偏離的U型曲線。文章強調,當模型不夠理想時,我們需要更好地引導模型或了解問題的本質,而非只是增加模型的大小。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News