三分鐘搞懂語言模型能力指標，Perplexity (困惑度)

無限智慧學院

發佈於人工智慧宇宙

更新於 2024/11/06發佈於 2023/11/06閱讀時間約 2 分鐘

如何評量一個大型語言模型有學到東西? 其中一個常用指標就是Perplexity(困惑度)。由於困惑度被大量論文引用，學習CP值很高，所以寫專文介紹。

上帝視角:

相信大家有做過英文填空題，如果單字沒有背熟，文法沒有搞懂，在缺乏足夠知識的情況下，每個選項感覺都對，無法選出正確答案。

對沒讀書的人來說，這個題目資訊量很大，腦中缺乏知識導致。而對於學霸來說，這題就是一塊蛋糕 (A piece of cake)，由於答題所需的知識充足，題目沒有給他帶來的任何的額外資訊量，直接能確定正確答案。

基於資料壓縮與編碼長度理念計算的困惑度

p_θ:

你的認知機率模型，用來回答考題的大腦神經元區塊。

_θ:

腦袋裡面神經元儲存的認知參數，知道的相關知識越多，越有助於做出肯定的判斷。

p_θ(x_i| x<_i) :

看到填空題除了填空以外的所有單字，如果沒有任何困惑，100%確定答案，可直接填入答案，如果有考慮其他選項，產生一定的困惑，就會小於100%。

-log(機率) :

如果沒有任何困惑，答案唯一被你確定，不需要額外的講解，就能填入正確答案，所以不需要額外的任何資訊(編碼)。

反之，如果這題你完全不懂，則需要老師的深入解說，你才會做答。越困惑，每個選項的機率均分，皆有可能，此時所需要的額外資訊量越大(編碼越長)。

exp{}:

平均編碼長度越長也就越困惑，代表需要額外的資訊進行講解。困惑度值域為 1~∞。

計算細節:

一般在Transformer Context window長度不夠的時候，會使用Sliding Window來做計算，Context window 為Transformer能一起看到的輸入Token長度。

Context Window 足夠大的情形

Context Window不夠大，使用Sliding window進行計算

限制:

當困惑度為1的時候，未必代表模型遇到未知的新問題，綜合表現能力也可以很好，極有可能是個書呆子，藉由死背答案來百分之百確定答案，所以實驗設計需要分訓練集與測試集，用沒有看過的題目來測試是否是死背答案。這也是老師考的都沒教的主要原因，師父引進門，修行在個人，測試舉一反三的能力。

引用:

https://huggingface.co/docs/transformers/perplexity
https://thegradient.pub/understanding-evaluation-metrics-for-language-models/

如果你對 AI 充滿熱情，學習上又不想浪費時間，我能夠以過來人的經驗給你不少想法，歡迎在Facebook群裡面留言。

如果想要用Zoom直接交談，為你直接解惑的，也可以點以下連結預約時間 (1小時)

https://calendly.com/universe_ai/free_appointment

無限智慧學院的沙龍人工智慧宇宙AI基礎知識

留言

留言分享你的想法！

無限智慧學院的沙龍

95會員

128內容數

帶你用上帝視角，針對市面上具有高度價值的影片/論文/書籍，用東方取象，與西方邏輯辯證的角度同時出發，跟著我一起來探討宇宙萬事萬物的本質，隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷，近期對於人工智慧，東方易經，西方辯證邏輯，還有佛法向內求有深度興趣。

無限智慧學院的沙龍的其他內容

2023/12/02

三分鐘內由上帝視角理解LoRA，讓大模型成為達文西的秘訣

未來不管是Diffuser還是LLM的微調，都離不開LoRA這項技術，充分理解LoRA的本質是甚麼，CP值特別高。這項技術的理念其實在人工智慧領域行之有年，只是普遍沒有響亮的名字與非常痛的應用場合，在大模型參數量暴增的時刻，重要性被大幅凸顯出來。

2023/12/02

三分鐘內由上帝視角理解LoRA，讓大模型成為達文西的秘訣

2023/11/02

從模型參數量與映射觀點出發，論證宇宙熱寂與大爆炸無限閉環假說

根據熱力學熵增鐵律，多數人認為宇宙會最終會進入熱寂(亂度散度最大化)，然後死去，但事實或許不然，一年有四季，日昇日落，大自然注定是生生不息，循環往復的，有鑑於近來大量閱讀AI關於模型與映射的概念，突然靈光乍現，想出了一套能讓宇宙生生不息的假說，讓我們一起來逐步論證!

2023/11/02

從模型參數量與映射觀點出發，論證宇宙熱寂與大爆炸無限閉環假說

2023/11/01

三分鐘內由上帝視角理解Positional Encoding

相信有不少人在剛接觸Attention is all you need這篇論文的時候，最感到困惑的就是Positional Encoding，知道公式長怎樣，不外乎就是Cosine / Sine，但始終無法直搗黃龍，理解背後的道理，本篇文提供各種觀點，讓你三分鐘內搞懂!

2023/11/01

三分鐘內由上帝視角理解Positional Encoding

看更多

你可能也想看

方格子 vocus 官方沙龍

徵才：創作者營運專員/經理（Operations Specialist）｜Creator Partnership 部門

創作者營運專員/經理（Operations Specialist/Manager）將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力，找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。

#vocus#方格子#求職

2025/06/23

方格子 vocus 官方沙龍

徵才：創作者營運專員/經理（Operations Specialist）｜Creator Partnership 部門

#vocus#方格子#求職

2025/06/23

凱茜女孩的沙龍

分享我曾經學英文失敗的經驗

以前我曾經在英文程度還沒那麼好的時候讀經濟學人雜誌 (The Economist)，以為英文會進步，結果是一場悲劇...

#英文#學習#英文學習

2024/07/17

凱茜女孩的沙龍

分享我曾經學英文失敗的經驗

以前我曾經在英文程度還沒那麼好的時候讀經濟學人雜誌 (The Economist)，以為英文會進步，結果是一場悲劇...

2024/07/17

2024/04/20

2024/04/20

英語是一種行之有效的全球溝通工具，但其複雜性卻常讓學習者感到頭痛。從文法的變化，到發音的細微差異，再到詞彙的廣泛運用，每一個環節都對準確地表達意思至關重要。詞彙是溝通的基礎，良好的詞彙力不僅能讓你流暢地表達自己的想法，也能幫助你更精確地理解他人的意見。

2024/03/12

2024/03/12

十一、什麼、怎麼、那麼無論演說或作文，「定義題目」都是首要工作。如果你對題目本身定義不明，當然就沒有辦法好好發揮接下來的論述，也就容易流為「文不對題」或「言不及義」。定義雖然很重要，但是演說的時間有限、作文的篇幅也有限，所以不能在定義題目上著墨太多，也不必原原本本都在解釋題目(如果有評審在評

2024/03/11

古月照今城的沙龍

練出好口才之十一，什麼、怎麼、那麼

2024/03/11

Hank，資產累積之路的沙龍

《隨筆》秒回表達力|唯有透過練習，你才能遠離那個含糊不清的自己!

言語的裝飾固然重要，但能把思維具象化才會是你邁向成功的一大步!你是否認為表達能力不佳，其實是因為他社恐害怕與人交流呢?或是你其實心中有許想法，可是每次你要表達的時候腦袋的迴路就會忽然斷電說不出來呢?這次閱讀的「秒回表達力」我把閱讀的主軸放在，如何把「構想」轉化...

#秒回表達力#成長閱讀#自我成長

2024/01/23

Hank，資產累積之路的沙龍

《隨筆》秒回表達力|唯有透過練習，你才能遠離那個含糊不清的自己!

#秒回表達力#成長閱讀#自我成長

2024/01/23

RiceMimi 芮思米米

英文字母有多……難？

標題沒有寫錯。希望經過以下歷程後，能讓你準確同感於英語初學者，初學英文字母時的感受；在他們學習的開端，多給予耐心和鼓勵。

#RiceMimi芮思米米#語言學習#英文字母

2024/01/21

RiceMimi 芮思米米

英文字母有多……難？

標題沒有寫錯。希望經過以下歷程後，能讓你準確同感於英語初學者，初學英文字母時的感受；在他們學習的開端，多給予耐心和鼓勵。

#RiceMimi芮思米米#語言學習#英文字母

2024/01/21

王啟樺的沙龍

【使用大語言模型學習語言：26-28歲的三大啟示】

如果你曾經嘗試學習多種語言，你會發現每種語言都有其獨特之處。在我26至28歲期間，我系統地學習了語言學知識，以此來輔助我學習俄語、法語、德語、義大利語和西班牙語。這個過程中，我發現了大語言模型（LLMs）在語言學習上的巨大潛力。

#大語言模型#機器學習#自然語言處理

2024/01/17