微軟爸爸的員工發論文教大家如何訓練與評估model,有完整的訓練思路與評估方法,雖然本篇沒有任何獨特的Fine-tune的手法,比較不接地氣,但是仍然可以當成一個好的參考範例,可以從中學到許多評估模型的角度與關鍵指標,改天會進行總結整理。論文主要成果:借助逐步推導資料集,Orca-2 7B/13B能夠取得超越70B模型的成果,如下圖所示,能取得這種好成果,歸因於幾個因素的整體考量。小模型直接回答錯誤率高,經由逐步推導資料集的建立,正確率會明顯改善不少某些問題類型,小模型直接回答錯誤率低,inference無須特別標注嚴謹逐步推導某些問題類型,小模型直接回答錯誤率高,inference須特別標注嚴謹逐步推導某些問題類型,大&小模型直接回答錯誤率皆高,inference須特別標注嚴謹逐步推導