三分鐘搞懂語言模型能力指標,Perplexity (困惑度)

更新於 發佈於 閱讀時間約 2 分鐘

如何評量一個大型語言模型有學到東西? 其中一個常用指標就是Perplexity(困惑度)。由於困惑度被大量論文引用,學習CP值很高,所以寫專文介紹。

上帝視角:

相信大家有做過英文填空題,如果單字沒有背熟,文法沒有搞懂,在缺乏足夠知識的情況下,每個選項感覺都對,無法選出正確答案。

對沒讀書的人來說,這個題目資訊量很大,腦中缺乏知識導致。而對於學霸來說,這題就是一塊蛋糕 (A piece of cake),由於答題所需的知識充足,題目沒有給他帶來的任何的額外資訊量,直接能確定正確答案。

基於資料壓縮與編碼長度理念計算的困惑度

基於資料壓縮與編碼長度理念計算的困惑度

pθ :

你的認知機率模型,用來回答考題的大腦神經元區塊。

θ :

腦袋裡面神經元儲存的認知參數,知道的相關知識越多,越有助於做出肯定的判斷。

pθ(xi | x<i) :

看到填空題除了填空以外的所有單字,如果沒有任何困惑,100%確定答案,可直接填入答案,如果有考慮其他選項,產生一定的困惑,就會小於100%。

-log(機率) :

如果沒有任何困惑,答案唯一被你確定,不需要額外的講解,就能填入正確答案,所以不需要額外的任何資訊(編碼)。

反之,如果這題你完全不懂,則需要老師的深入解說,你才會做答。越困惑,每個選項的機率均分,皆有可能,此時所需要的額外資訊量越大(編碼越長)。

exp{}:

平均編碼長度越長也就越困惑,代表需要額外的資訊進行講解。困惑度值域為 1~∞。


計算細節:

一般在Transformer Context window長度不夠的時候,會使用Sliding Window來做計算,Context window 為Transformer能一起看到的輸入Token長度。

Context Window 足夠大的情形

Context Window 足夠大的情形

Context Window不夠大,使用Sliding window進行計算

Context Window不夠大,使用Sliding window進行計算

限制:

當困惑度為1的時候,未必代表模型遇到未知的新問題,綜合表現能力也可以很好,極有可能是個書呆子,藉由死背答案來百分之百確定答案,所以實驗設計需要分訓練集與測試集,用沒有看過的題目來測試是否是死背答案。這也是老師考的都沒教的主要原因,師父引進門,修行在個人,測試舉一反三的能力。

引用:

https://huggingface.co/docs/transformers/perplexity
https://thegradient.pub/understanding-evaluation-metrics-for-language-models/


如果你對 AI 充滿熱情,學習上又不想浪費時間,我能夠以過來人的經驗給你不少想法,歡迎在Facebook群裡面留言。

如果想要用Zoom直接交談,為你直接解惑的,也可以點以下連結預約時間 (1小時)

https://calendly.com/universe_ai/free_appointment

留言
avatar-img
留言分享你的想法!
avatar-img
無限智慧學院的沙龍
95會員
128內容數
帶你用上帝視角,針對市面上具有高度價值的影片/論文/書籍,用東方取象,與西方邏輯辯證的角度同時出發,跟著我一起來探討宇宙萬事萬物的本質,隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷,近期對於人工智慧,東方易經,西方辯證邏輯,還有佛法向內求有深度興趣。
2023/12/02
未來不管是Diffuser還是LLM的微調,都離不開LoRA這項技術,充分理解LoRA的本質是甚麼,CP值特別高。這項技術的理念其實在人工智慧領域行之有年,只是普遍沒有響亮的名字與非常痛的應用場合,在大模型參數量暴增的時刻,重要性被大幅凸顯出來。
Thumbnail
2023/12/02
未來不管是Diffuser還是LLM的微調,都離不開LoRA這項技術,充分理解LoRA的本質是甚麼,CP值特別高。這項技術的理念其實在人工智慧領域行之有年,只是普遍沒有響亮的名字與非常痛的應用場合,在大模型參數量暴增的時刻,重要性被大幅凸顯出來。
Thumbnail
2023/11/02
根據熱力學熵增鐵律,多數人認為宇宙會最終會進入熱寂(亂度散度最大化),然後死去,但事實或許不然,一年有四季,日昇日落,大自然注定是生生不息,循環往復的,有鑑於近來大量閱讀AI關於模型與映射的概念,突然靈光乍現,想出了一套能讓宇宙生生不息的假說,讓我們一起來逐步論證!
Thumbnail
2023/11/02
根據熱力學熵增鐵律,多數人認為宇宙會最終會進入熱寂(亂度散度最大化),然後死去,但事實或許不然,一年有四季,日昇日落,大自然注定是生生不息,循環往復的,有鑑於近來大量閱讀AI關於模型與映射的概念,突然靈光乍現,想出了一套能讓宇宙生生不息的假說,讓我們一起來逐步論證!
Thumbnail
2023/11/01
相信有不少人在剛接觸Attention is all you need這篇論文的時候,最感到困惑的就是Positional Encoding,知道公式長怎樣,不外乎就是Cosine / Sine,但始終無法直搗黃龍,理解背後的道理,本篇文提供各種觀點,讓你三分鐘內搞懂!
Thumbnail
2023/11/01
相信有不少人在剛接觸Attention is all you need這篇論文的時候,最感到困惑的就是Positional Encoding,知道公式長怎樣,不外乎就是Cosine / Sine,但始終無法直搗黃龍,理解背後的道理,本篇文提供各種觀點,讓你三分鐘內搞懂!
Thumbnail
看更多
你可能也想看
Thumbnail
透過蝦皮分潤計畫,輕鬆賺取零用金!本文分享5-6月實測心得,包含數據流程、實際收入、平臺優點及注意事項,並推薦高分潤商品,教你如何運用空閒時間創造被動收入。
Thumbnail
透過蝦皮分潤計畫,輕鬆賺取零用金!本文分享5-6月實測心得,包含數據流程、實際收入、平臺優點及注意事項,並推薦高分潤商品,教你如何運用空閒時間創造被動收入。
Thumbnail
單身的人有些會養寵物,而我養植物。畢竟寵物離世會傷心,植物沒養好再接再厲就好了~(笑)
Thumbnail
單身的人有些會養寵物,而我養植物。畢竟寵物離世會傷心,植物沒養好再接再厲就好了~(笑)
Thumbnail
不知你有沒有過這種經驗?衛生紙只剩最後一包、洗衣精倒不出來,或電池突然沒電。這次一次補貨,從電池、衛生紙到洗衣精,還順便分享使用心得。更棒的是,搭配蝦皮分潤計畫,愛用品不僅自己用得安心,分享給朋友還能賺回饋。立即使用推薦碼 X5Q344E,輕鬆上手,隨時隨地賺取分潤!
Thumbnail
不知你有沒有過這種經驗?衛生紙只剩最後一包、洗衣精倒不出來,或電池突然沒電。這次一次補貨,從電池、衛生紙到洗衣精,還順便分享使用心得。更棒的是,搭配蝦皮分潤計畫,愛用品不僅自己用得安心,分享給朋友還能賺回饋。立即使用推薦碼 X5Q344E,輕鬆上手,隨時隨地賺取分潤!
Thumbnail
身為一個典型的社畜,上班時間被會議、進度、KPI 塞得滿滿,下班後只想要找一個能夠安靜喘口氣的小角落。對我來說,畫畫就是那個屬於自己的小樹洞。無論是胡亂塗鴉,還是慢慢描繪喜歡的插畫人物,那個專注在筆觸和色彩的過程,就像在幫心靈按摩一樣,讓緊繃的神經慢慢鬆開。
Thumbnail
身為一個典型的社畜,上班時間被會議、進度、KPI 塞得滿滿,下班後只想要找一個能夠安靜喘口氣的小角落。對我來說,畫畫就是那個屬於自己的小樹洞。無論是胡亂塗鴉,還是慢慢描繪喜歡的插畫人物,那個專注在筆觸和色彩的過程,就像在幫心靈按摩一樣,讓緊繃的神經慢慢鬆開。
Thumbnail
以前我曾經在英文程度還沒那麼好的時候讀經濟學人雜誌 (The Economist),以為英文會進步,結果是一場悲劇...
Thumbnail
以前我曾經在英文程度還沒那麼好的時候讀經濟學人雜誌 (The Economist),以為英文會進步,結果是一場悲劇...
Thumbnail
英語是一種行之有效的全球溝通工具,但其複雜性卻常讓學習者感到頭痛。從文法的變化,到發音的細微差異,再到詞彙的廣泛運用,每一個環節都對準確地表達意思至關重要。詞彙是溝通的基礎,良好的詞彙力不僅能讓你流暢地表達自己的想法,也能幫助你更精確地理解他人的意見。
Thumbnail
英語是一種行之有效的全球溝通工具,但其複雜性卻常讓學習者感到頭痛。從文法的變化,到發音的細微差異,再到詞彙的廣泛運用,每一個環節都對準確地表達意思至關重要。詞彙是溝通的基礎,良好的詞彙力不僅能讓你流暢地表達自己的想法,也能幫助你更精確地理解他人的意見。
Thumbnail
十一、什麼、怎麼、那麼 無論演說或作文,「定義題目」都是首要工作。如果你對題目本身定義不明,當然就沒有辦法好好發揮接下來的論述,也就容易流為「文不對題」或「言不及義」。 定義雖然很重要,但是演說的時間有限、作文的篇幅也有限,所以不能在定義題目上著墨太多,也不必原原本本都在解釋題目(如果有評審在評
Thumbnail
十一、什麼、怎麼、那麼 無論演說或作文,「定義題目」都是首要工作。如果你對題目本身定義不明,當然就沒有辦法好好發揮接下來的論述,也就容易流為「文不對題」或「言不及義」。 定義雖然很重要,但是演說的時間有限、作文的篇幅也有限,所以不能在定義題目上著墨太多,也不必原原本本都在解釋題目(如果有評審在評
Thumbnail
言語的裝飾固然重要,但能把思維具象化才會是你邁向成功的一大步!你是否認為表達能力不佳,其實是因為他社恐害怕與人交流呢?或是你其實心中有許想法,可是每次你要表達的時候腦袋的迴路就會忽然斷電說不出來呢?這次閱讀的「秒回表達力」我把閱讀的主軸放在,如何把「構想」轉化...
Thumbnail
言語的裝飾固然重要,但能把思維具象化才會是你邁向成功的一大步!你是否認為表達能力不佳,其實是因為他社恐害怕與人交流呢?或是你其實心中有許想法,可是每次你要表達的時候腦袋的迴路就會忽然斷電說不出來呢?這次閱讀的「秒回表達力」我把閱讀的主軸放在,如何把「構想」轉化...
Thumbnail
標題沒有寫錯。 希望經過以下歷程後,能讓你準確同感於英語初學者,初學英文字母時的感受;在他們學習的開端,多給予耐心和鼓勵。
Thumbnail
標題沒有寫錯。 希望經過以下歷程後,能讓你準確同感於英語初學者,初學英文字母時的感受;在他們學習的開端,多給予耐心和鼓勵。
Thumbnail
如果你曾經嘗試學習多種語言, 你會發現每種語言都有其獨特之處。 在我26至28歲期間, 我系統地學習了語言學知識, 以此來輔助我學習俄語、法語、德語、義大利語和西班牙語。 這個過程中, 我發現了大語言模型(LLMs)在語言學習上的巨大潛力。
Thumbnail
如果你曾經嘗試學習多種語言, 你會發現每種語言都有其獨特之處。 在我26至28歲期間, 我系統地學習了語言學知識, 以此來輔助我學習俄語、法語、德語、義大利語和西班牙語。 這個過程中, 我發現了大語言模型(LLMs)在語言學習上的巨大潛力。
Thumbnail
曾經有個學生問我:「我看了老師平常用模板照樣造句的學習方法,我有跟著練習,但我想知道我該怎麼確認自己造的句子是正確的用法,因為 Google 的翻譯很簡便,而且可能兩三個單字用法翻過來中文都一樣...」
Thumbnail
曾經有個學生問我:「我看了老師平常用模板照樣造句的學習方法,我有跟著練習,但我想知道我該怎麼確認自己造的句子是正確的用法,因為 Google 的翻譯很簡便,而且可能兩三個單字用法翻過來中文都一樣...」
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News