三分鐘搞懂語言模型能力指標,Perplexity (困惑度)

閱讀時間約 2 分鐘

如何評量一個大型語言模型有學到東西? 其中一個常用指標就是Perplexity(困惑度)。由於困惑度被大量論文引用,學習CP值很高,所以寫專文介紹。

上帝視角:

相信大家有做過英文填空題,如果單字沒有背熟,文法沒有搞懂,在缺乏足夠知識的情況下,每個選項感覺都對,無法選出正確答案。

對沒讀書的人來說,這個題目資訊量很大,腦中缺乏知識導致。而對於學霸來說,這題就是一塊蛋糕 (A piece of cake),由於答題所需的知識充足,題目沒有給他帶來的任何的額外資訊量,直接能確定正確答案。

基於資料壓縮與編碼長度理念計算的困惑度

基於資料壓縮與編碼長度理念計算的困惑度

pθ :

你的認知機率模型,用來回答考題的大腦神經元區塊。

θ :

腦袋裡面神經元儲存的認知參數,知道的相關知識越多,越有助於做出肯定的判斷。

pθ(xi | x<i) :

看到填空題除了填空以外的所有單字,如果沒有任何困惑,100%確定答案,可直接填入答案,如果有考慮其他選項,產生一定的困惑,就會小於100%。

-log(機率) :

如果沒有任何困惑,答案唯一被你確定,不需要額外的講解,就能填入正確答案,所以不需要額外的任何資訊(編碼)。

反之,如果這題你完全不懂,則需要老師的深入解說,你才會做答。越困惑,每個選項的機率均分,皆有可能,此時所需要的額外資訊量越大(編碼越長)。

exp{}:

平均編碼長度越長也就越困惑,代表需要額外的資訊進行講解。困惑度值域為 1~∞。


計算細節:

一般在Transformer Context window長度不夠的時候,會使用Sliding Window來做計算,Context window 為Transformer能一起看到的輸入Token長度。

Context Window 足夠大的情形

Context Window 足夠大的情形

Context Window不夠大,使用Sliding window進行計算

Context Window不夠大,使用Sliding window進行計算

限制:

當困惑度為1的時候,未必代表模型遇到未知的新問題,綜合表現能力也可以很好,極有可能是個書呆子,藉由死背答案來百分之百確定答案,所以實驗設計需要分訓練集與測試集,用沒有看過的題目來測試是否是死背答案。這也是老師考的都沒教的主要原因,師父引進門,修行在個人,測試舉一反三的能力。

引用:

https://huggingface.co/docs/transformers/perplexity
https://thegradient.pub/understanding-evaluation-metrics-for-language-models/


如果你對 AI 充滿熱情,學習上又不想浪費時間,我能夠以過來人的經驗給你不少想法,歡迎在Facebook群裡面留言。

如果想要用Zoom直接交談,為你直接解惑的,也可以點以下連結預約時間 (1小時)

https://calendly.com/universe_ai/free_appointment

95會員
128Content count
帶你用上帝視角,針對市面上具有高度價值的影片/論文/書籍,用東方取象,與西方邏輯辯證的角度同時出發,跟著我一起來探討宇宙萬事萬物的本質,隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷,近期對於人工智慧,東方易經,西方辯證邏輯,還有佛法向內求有深度興趣。
留言0
查看全部
發表第一個留言支持創作者!
相信替影片配字幕是許多人心中的痛,本文帶你在三分鐘內能夠用你的電腦,實做聲音轉字幕網站,準備好了就來吧!
根據熱力學熵增鐵律,多數人認為宇宙會最終會進入熱寂(亂度散度最大化),然後死去,但事實或許不然,一年有四季,日昇日落,大自然注定是生生不息,循環往復的,有鑑於近來大量閱讀AI關於模型與映射的概念,突然靈光乍現,想出了一套能讓宇宙生生不息的假說,讓我們一起來逐步論證!
相信有不少人在剛接觸Attention is all you need這篇論文的時候,最感到困惑的就是Positional Encoding,知道公式長怎樣,不外乎就是Cosine / Sine,但始終無法直搗黃龍,理解背後的道理,本篇文提供各種觀點,讓你三分鐘內搞懂!
已經有不只一位讀者請教我,人工智慧是否會造成大量失業的問題,於是催生了本篇文章,這裡會從多個角度來分析這件事情。
要檢查兩段長篇文字,內容是否雷同,長久以來困擾著大家,沒有好的嵌入模型,會耗費大量人力,需要對長篇文檔進行人工閱讀然後人工分類。本文除了展示如何能完美的解決這個痛點以外,也提供一些延伸應用思路,學習CP值很高。期待你能從本文取得許多新的應用思路與應用潛力!
為了使小模型取得大模型的回答水平 這篇論文提出了三招,"大幅度"提升Mistral 7B模型的回答準確率 如果有想要把LLM微調好的人,一定不能錯過這篇
相信替影片配字幕是許多人心中的痛,本文帶你在三分鐘內能夠用你的電腦,實做聲音轉字幕網站,準備好了就來吧!
根據熱力學熵增鐵律,多數人認為宇宙會最終會進入熱寂(亂度散度最大化),然後死去,但事實或許不然,一年有四季,日昇日落,大自然注定是生生不息,循環往復的,有鑑於近來大量閱讀AI關於模型與映射的概念,突然靈光乍現,想出了一套能讓宇宙生生不息的假說,讓我們一起來逐步論證!
相信有不少人在剛接觸Attention is all you need這篇論文的時候,最感到困惑的就是Positional Encoding,知道公式長怎樣,不外乎就是Cosine / Sine,但始終無法直搗黃龍,理解背後的道理,本篇文提供各種觀點,讓你三分鐘內搞懂!
已經有不只一位讀者請教我,人工智慧是否會造成大量失業的問題,於是催生了本篇文章,這裡會從多個角度來分析這件事情。
要檢查兩段長篇文字,內容是否雷同,長久以來困擾著大家,沒有好的嵌入模型,會耗費大量人力,需要對長篇文檔進行人工閱讀然後人工分類。本文除了展示如何能完美的解決這個痛點以外,也提供一些延伸應用思路,學習CP值很高。期待你能從本文取得許多新的應用思路與應用潛力!
為了使小模型取得大模型的回答水平 這篇論文提出了三招,"大幅度"提升Mistral 7B模型的回答準確率 如果有想要把LLM微調好的人,一定不能錯過這篇
你可能也想看
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
【什麼是SDGs(永續發展目標)?】 聯合國在2015年針對人類面臨共同的挑戰,提出了17項永續發展目標(Sustainable Development Goals),作為2030年前世界各國努力推動永續發展的指導方針。 永續發展目標與我們社會生活緊密扣連,又與觀音山愛護海洋保育放流計畫息息相關。
Thumbnail
你能把A~E的介詞片語放入正確的空格內嗎? 解答: 翻譯 我領悟慢,所以你能詳細解說正確的程序嗎? 我的鄰居和我關係友好。 兩國即將達成協議。 電動車上個月需求量很大。 從我收到他的訊息以來就一直很消沉。
Thumbnail
🍄定義: 布林通道(Bollinger Bands,看盤軟體會寫作Bband軌道線)又被稱為"布林帶"、"保力加通道"、"包寧傑帶狀"、"布歷加通道"。 這項技術指標由"均線"和"標準差"構成下列三條線: 1.上線(軌):以中線為基準往上加兩個標準差,成為股價的壓力線。 2.中線(軌):也就是股價
Thumbnail
最近與客戶聊天,她提到了一點很不解(雖然解釋過很多遍),疫情明明還有影響,但為什麼股市可以創新高?其實理由很多,這裡來聊幾個重點。 一,GDP沒有想像中那麼糟: 美國2019年GDP為21.372 兆美元,2020年衰退了2.3%為20.893兆美元(實質GDP為下降3.5%)
Thumbnail
泡麵又稱方便麵、速食麵,不但台灣家庭中不可或缺的國民美食,口味多樣,也是鄉民口中熱議的話題之一,究竟泡麵具有什麼樣的特殊魅力吸引網友選購?網友間熱議的時下泡麵品牌有哪些呢?Wisdom字慧輿情解析了近半年來的網路大數據,為各位帶來熱騰騰剛出爐的「三分鐘吮指美味 泡麵大賞」網路大數據分析。
Thumbnail
你也有每年計畫許多目標,卻沒有達成嗎? 「最棒的一年」這本書的作者將教你五個步驟完成目標!  首先作者把目標分成十個類別,分別是: 心靈、智識、情感、身體、婚姻....等等
Thumbnail
人生當然不會有事事順心的時候(但在限定範圍內要達成也不難),平安這樣的事情也有很多定義,好比目睹一場車禍或自己車撞爛了但是人只是輕傷是平安,好吃好喝好睡免吃藥也是平安,無聊到身上都快長毛了也是一種平安
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
【什麼是SDGs(永續發展目標)?】 聯合國在2015年針對人類面臨共同的挑戰,提出了17項永續發展目標(Sustainable Development Goals),作為2030年前世界各國努力推動永續發展的指導方針。 永續發展目標與我們社會生活緊密扣連,又與觀音山愛護海洋保育放流計畫息息相關。
Thumbnail
你能把A~E的介詞片語放入正確的空格內嗎? 解答: 翻譯 我領悟慢,所以你能詳細解說正確的程序嗎? 我的鄰居和我關係友好。 兩國即將達成協議。 電動車上個月需求量很大。 從我收到他的訊息以來就一直很消沉。
Thumbnail
🍄定義: 布林通道(Bollinger Bands,看盤軟體會寫作Bband軌道線)又被稱為"布林帶"、"保力加通道"、"包寧傑帶狀"、"布歷加通道"。 這項技術指標由"均線"和"標準差"構成下列三條線: 1.上線(軌):以中線為基準往上加兩個標準差,成為股價的壓力線。 2.中線(軌):也就是股價
Thumbnail
最近與客戶聊天,她提到了一點很不解(雖然解釋過很多遍),疫情明明還有影響,但為什麼股市可以創新高?其實理由很多,這裡來聊幾個重點。 一,GDP沒有想像中那麼糟: 美國2019年GDP為21.372 兆美元,2020年衰退了2.3%為20.893兆美元(實質GDP為下降3.5%)
Thumbnail
泡麵又稱方便麵、速食麵,不但台灣家庭中不可或缺的國民美食,口味多樣,也是鄉民口中熱議的話題之一,究竟泡麵具有什麼樣的特殊魅力吸引網友選購?網友間熱議的時下泡麵品牌有哪些呢?Wisdom字慧輿情解析了近半年來的網路大數據,為各位帶來熱騰騰剛出爐的「三分鐘吮指美味 泡麵大賞」網路大數據分析。
Thumbnail
你也有每年計畫許多目標,卻沒有達成嗎? 「最棒的一年」這本書的作者將教你五個步驟完成目標!  首先作者把目標分成十個類別,分別是: 心靈、智識、情感、身體、婚姻....等等
Thumbnail
人生當然不會有事事順心的時候(但在限定範圍內要達成也不難),平安這樣的事情也有很多定義,好比目睹一場車禍或自己車撞爛了但是人只是輕傷是平安,好吃好喝好睡免吃藥也是平安,無聊到身上都快長毛了也是一種平安