三分鐘搞懂語言模型能力指標,Perplexity (困惑度)

更新於 發佈於 閱讀時間約 2 分鐘

如何評量一個大型語言模型有學到東西? 其中一個常用指標就是Perplexity(困惑度)。由於困惑度被大量論文引用,學習CP值很高,所以寫專文介紹。

上帝視角:

相信大家有做過英文填空題,如果單字沒有背熟,文法沒有搞懂,在缺乏足夠知識的情況下,每個選項感覺都對,無法選出正確答案。

對沒讀書的人來說,這個題目資訊量很大,腦中缺乏知識導致。而對於學霸來說,這題就是一塊蛋糕 (A piece of cake),由於答題所需的知識充足,題目沒有給他帶來的任何的額外資訊量,直接能確定正確答案。

基於資料壓縮與編碼長度理念計算的困惑度

基於資料壓縮與編碼長度理念計算的困惑度

pθ :

你的認知機率模型,用來回答考題的大腦神經元區塊。

θ :

腦袋裡面神經元儲存的認知參數,知道的相關知識越多,越有助於做出肯定的判斷。

pθ(xi | x<i) :

看到填空題除了填空以外的所有單字,如果沒有任何困惑,100%確定答案,可直接填入答案,如果有考慮其他選項,產生一定的困惑,就會小於100%。

-log(機率) :

如果沒有任何困惑,答案唯一被你確定,不需要額外的講解,就能填入正確答案,所以不需要額外的任何資訊(編碼)。

反之,如果這題你完全不懂,則需要老師的深入解說,你才會做答。越困惑,每個選項的機率均分,皆有可能,此時所需要的額外資訊量越大(編碼越長)。

exp{}:

平均編碼長度越長也就越困惑,代表需要額外的資訊進行講解。困惑度值域為 1~∞。


計算細節:

一般在Transformer Context window長度不夠的時候,會使用Sliding Window來做計算,Context window 為Transformer能一起看到的輸入Token長度。

Context Window 足夠大的情形

Context Window 足夠大的情形

Context Window不夠大,使用Sliding window進行計算

Context Window不夠大,使用Sliding window進行計算

限制:

當困惑度為1的時候,未必代表模型遇到未知的新問題,綜合表現能力也可以很好,極有可能是個書呆子,藉由死背答案來百分之百確定答案,所以實驗設計需要分訓練集與測試集,用沒有看過的題目來測試是否是死背答案。這也是老師考的都沒教的主要原因,師父引進門,修行在個人,測試舉一反三的能力。

引用:

https://huggingface.co/docs/transformers/perplexity
https://thegradient.pub/understanding-evaluation-metrics-for-language-models/


如果你對 AI 充滿熱情,學習上又不想浪費時間,我能夠以過來人的經驗給你不少想法,歡迎在Facebook群裡面留言。

如果想要用Zoom直接交談,為你直接解惑的,也可以點以下連結預約時間 (1小時)

https://calendly.com/universe_ai/free_appointment

留言
avatar-img
留言分享你的想法!
avatar-img
無限智慧學院的沙龍
95會員
128內容數
帶你用上帝視角,針對市面上具有高度價值的影片/論文/書籍,用東方取象,與西方邏輯辯證的角度同時出發,跟著我一起來探討宇宙萬事萬物的本質,隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷,近期對於人工智慧,東方易經,西方辯證邏輯,還有佛法向內求有深度興趣。
2023/12/02
未來不管是Diffuser還是LLM的微調,都離不開LoRA這項技術,充分理解LoRA的本質是甚麼,CP值特別高。這項技術的理念其實在人工智慧領域行之有年,只是普遍沒有響亮的名字與非常痛的應用場合,在大模型參數量暴增的時刻,重要性被大幅凸顯出來。
Thumbnail
2023/12/02
未來不管是Diffuser還是LLM的微調,都離不開LoRA這項技術,充分理解LoRA的本質是甚麼,CP值特別高。這項技術的理念其實在人工智慧領域行之有年,只是普遍沒有響亮的名字與非常痛的應用場合,在大模型參數量暴增的時刻,重要性被大幅凸顯出來。
Thumbnail
2023/11/02
根據熱力學熵增鐵律,多數人認為宇宙會最終會進入熱寂(亂度散度最大化),然後死去,但事實或許不然,一年有四季,日昇日落,大自然注定是生生不息,循環往復的,有鑑於近來大量閱讀AI關於模型與映射的概念,突然靈光乍現,想出了一套能讓宇宙生生不息的假說,讓我們一起來逐步論證!
Thumbnail
2023/11/02
根據熱力學熵增鐵律,多數人認為宇宙會最終會進入熱寂(亂度散度最大化),然後死去,但事實或許不然,一年有四季,日昇日落,大自然注定是生生不息,循環往復的,有鑑於近來大量閱讀AI關於模型與映射的概念,突然靈光乍現,想出了一套能讓宇宙生生不息的假說,讓我們一起來逐步論證!
Thumbnail
2023/11/01
相信有不少人在剛接觸Attention is all you need這篇論文的時候,最感到困惑的就是Positional Encoding,知道公式長怎樣,不外乎就是Cosine / Sine,但始終無法直搗黃龍,理解背後的道理,本篇文提供各種觀點,讓你三分鐘內搞懂!
Thumbnail
2023/11/01
相信有不少人在剛接觸Attention is all you need這篇論文的時候,最感到困惑的就是Positional Encoding,知道公式長怎樣,不外乎就是Cosine / Sine,但始終無法直搗黃龍,理解背後的道理,本篇文提供各種觀點,讓你三分鐘內搞懂!
Thumbnail
看更多
你可能也想看
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
以前我曾經在英文程度還沒那麼好的時候讀經濟學人雜誌 (The Economist),以為英文會進步,結果是一場悲劇...
Thumbnail
以前我曾經在英文程度還沒那麼好的時候讀經濟學人雜誌 (The Economist),以為英文會進步,結果是一場悲劇...
Thumbnail
英語是一種行之有效的全球溝通工具,但其複雜性卻常讓學習者感到頭痛。從文法的變化,到發音的細微差異,再到詞彙的廣泛運用,每一個環節都對準確地表達意思至關重要。詞彙是溝通的基礎,良好的詞彙力不僅能讓你流暢地表達自己的想法,也能幫助你更精確地理解他人的意見。
Thumbnail
英語是一種行之有效的全球溝通工具,但其複雜性卻常讓學習者感到頭痛。從文法的變化,到發音的細微差異,再到詞彙的廣泛運用,每一個環節都對準確地表達意思至關重要。詞彙是溝通的基礎,良好的詞彙力不僅能讓你流暢地表達自己的想法,也能幫助你更精確地理解他人的意見。
Thumbnail
十一、什麼、怎麼、那麼 無論演說或作文,「定義題目」都是首要工作。如果你對題目本身定義不明,當然就沒有辦法好好發揮接下來的論述,也就容易流為「文不對題」或「言不及義」。 定義雖然很重要,但是演說的時間有限、作文的篇幅也有限,所以不能在定義題目上著墨太多,也不必原原本本都在解釋題目(如果有評審在評
Thumbnail
十一、什麼、怎麼、那麼 無論演說或作文,「定義題目」都是首要工作。如果你對題目本身定義不明,當然就沒有辦法好好發揮接下來的論述,也就容易流為「文不對題」或「言不及義」。 定義雖然很重要,但是演說的時間有限、作文的篇幅也有限,所以不能在定義題目上著墨太多,也不必原原本本都在解釋題目(如果有評審在評
Thumbnail
言語的裝飾固然重要,但能把思維具象化才會是你邁向成功的一大步!你是否認為表達能力不佳,其實是因為他社恐害怕與人交流呢?或是你其實心中有許想法,可是每次你要表達的時候腦袋的迴路就會忽然斷電說不出來呢?這次閱讀的「秒回表達力」我把閱讀的主軸放在,如何把「構想」轉化...
Thumbnail
言語的裝飾固然重要,但能把思維具象化才會是你邁向成功的一大步!你是否認為表達能力不佳,其實是因為他社恐害怕與人交流呢?或是你其實心中有許想法,可是每次你要表達的時候腦袋的迴路就會忽然斷電說不出來呢?這次閱讀的「秒回表達力」我把閱讀的主軸放在,如何把「構想」轉化...
Thumbnail
標題沒有寫錯。 希望經過以下歷程後,能讓你準確同感於英語初學者,初學英文字母時的感受;在他們學習的開端,多給予耐心和鼓勵。
Thumbnail
標題沒有寫錯。 希望經過以下歷程後,能讓你準確同感於英語初學者,初學英文字母時的感受;在他們學習的開端,多給予耐心和鼓勵。
Thumbnail
如果你曾經嘗試學習多種語言, 你會發現每種語言都有其獨特之處。 在我26至28歲期間, 我系統地學習了語言學知識, 以此來輔助我學習俄語、法語、德語、義大利語和西班牙語。 這個過程中, 我發現了大語言模型(LLMs)在語言學習上的巨大潛力。
Thumbnail
如果你曾經嘗試學習多種語言, 你會發現每種語言都有其獨特之處。 在我26至28歲期間, 我系統地學習了語言學知識, 以此來輔助我學習俄語、法語、德語、義大利語和西班牙語。 這個過程中, 我發現了大語言模型(LLMs)在語言學習上的巨大潛力。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News