三分鐘搞懂語言模型能力指標，Perplexity (困惑度)

無限智慧學院

發佈於人工智慧宇宙

更新於 2024/11/06發佈於 2023/11/06閱讀時間約 2 分鐘

如何評量一個大型語言模型有學到東西? 其中一個常用指標就是Perplexity(困惑度)。由於困惑度被大量論文引用，學習CP值很高，所以寫專文介紹。

上帝視角:

相信大家有做過英文填空題，如果單字沒有背熟，文法沒有搞懂，在缺乏足夠知識的情況下，每個選項感覺都對，無法選出正確答案。

對沒讀書的人來說，這個題目資訊量很大，腦中缺乏知識導致。而對於學霸來說，這題就是一塊蛋糕 (A piece of cake)，由於答題所需的知識充足，題目沒有給他帶來的任何的額外資訊量，直接能確定正確答案。

基於資料壓縮與編碼長度理念計算的困惑度

p_θ:

你的認知機率模型，用來回答考題的大腦神經元區塊。

_θ:

腦袋裡面神經元儲存的認知參數，知道的相關知識越多，越有助於做出肯定的判斷。

p_θ(x_i| x<_i) :

看到填空題除了填空以外的所有單字，如果沒有任何困惑，100%確定答案，可直接填入答案，如果有考慮其他選項，產生一定的困惑，就會小於100%。

-log(機率) :

如果沒有任何困惑，答案唯一被你確定，不需要額外的講解，就能填入正確答案，所以不需要額外的任何資訊(編碼)。

反之，如果這題你完全不懂，則需要老師的深入解說，你才會做答。越困惑，每個選項的機率均分，皆有可能，此時所需要的額外資訊量越大(編碼越長)。

exp{}:

平均編碼長度越長也就越困惑，代表需要額外的資訊進行講解。困惑度值域為 1~∞。

計算細節:

一般在Transformer Context window長度不夠的時候，會使用Sliding Window來做計算，Context window 為Transformer能一起看到的輸入Token長度。

Context Window 足夠大的情形

Context Window不夠大，使用Sliding window進行計算

限制:

當困惑度為1的時候，未必代表模型遇到未知的新問題，綜合表現能力也可以很好，極有可能是個書呆子，藉由死背答案來百分之百確定答案，所以實驗設計需要分訓練集與測試集，用沒有看過的題目來測試是否是死背答案。這也是老師考的都沒教的主要原因，師父引進門，修行在個人，測試舉一反三的能力。

引用:

https://huggingface.co/docs/transformers/perplexity
https://thegradient.pub/understanding-evaluation-metrics-for-language-models/

如果你對 AI 充滿熱情，學習上又不想浪費時間，我能夠以過來人的經驗給你不少想法，歡迎在Facebook群裡面留言。

如果想要用Zoom直接交談，為你直接解惑的，也可以點以下連結預約時間 (1小時)

https://calendly.com/universe_ai/free_appointment

無限智慧學院的沙龍人工智慧宇宙AI基礎知識

無限智慧學院的沙龍

95會員

128內容數

帶你用上帝視角，針對市面上具有高度價值的影片/論文/書籍，用東方取象，與西方邏輯辯證的角度同時出發，跟著我一起來探討宇宙萬事萬物的本質，隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷，近期對於人工智慧，東方易經，西方辯證邏輯，還有佛法向內求有深度興趣。

留言

留言分享你的想法！

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

無限智慧學院的沙龍的其他內容

三分鐘內實作聲音轉字幕網頁App

相信替影片配字幕是許多人心中的痛，本文帶你在三分鐘內能夠用你的電腦，實做聲音轉字幕網站，準備好了就來吧!

#Huggingface #github #三分鐘

從模型參數量與映射觀點出發，論證宇宙熱寂與大爆炸無限閉環假說

根據熱力學熵增鐵律，多數人認為宇宙會最終會進入熱寂(亂度散度最大化)，然後死去，但事實或許不然，一年有四季，日昇日落，大自然注定是生生不息，循環往復的，有鑑於近來大量閱讀AI關於模型與映射的概念，突然靈光乍現，想出了一套能讓宇宙生生不息的假說，讓我們一起來逐步論證!

#模型 #人工智慧 #機率

三分鐘內由上帝視角理解Positional Encoding

相信有不少人在剛接觸Attention is all you need這篇論文的時候，最感到困惑的就是Positional Encoding，知道公式長怎樣，不外乎就是Cosine / Sine，但始終無法直搗黃龍，理解背後的道理，本篇文提供各種觀點，讓你三分鐘內搞懂!

#上帝視角 #三分鐘 #PositionalEncoding

人工智慧會大量造成失業嗎? 幾乎不會

已經有不只一位讀者請教我，人工智慧是否會造成大量失業的問題，於是催生了本篇文章，這裡會從多個角度來分析這件事情。

#第四次工業革命 #人工智慧與失業問題 #高階經理人危機

開啟一切可能性的鑰匙，8K Text Embedding Model

要檢查兩段長篇文字，內容是否雷同，長久以來困擾著大家，沒有好的嵌入模型，會耗費大量人力，需要對長篇文檔進行人工閱讀然後人工分類。本文除了展示如何能完美的解決這個痛點以外，也提供一些延伸應用思路，學習CP值很高。期待你能從本文取得許多新的應用思路與應用潛力！

#TextEmbedding #AI推薦系統 #阿斯拉強化學習

發揮以小搏大的精神，直接蒸餾法訓練Mistral 7B

為了使小模型取得大模型的回答水平這篇論文提出了三招，"大幅度"提升Mistral 7B模型的回答準確率如果有想要把LLM微調好的人，一定不能錯過這篇

#科技力 #Mistral #GPT-4

三分鐘內實作聲音轉字幕網頁App

相信替影片配字幕是許多人心中的痛，本文帶你在三分鐘內能夠用你的電腦，實做聲音轉字幕網站，準備好了就來吧!

#Huggingface #github #三分鐘

從模型參數量與映射觀點出發，論證宇宙熱寂與大爆炸無限閉環假說

#模型 #人工智慧 #機率

三分鐘內由上帝視角理解Positional Encoding

#上帝視角 #三分鐘 #PositionalEncoding

人工智慧會大量造成失業嗎? 幾乎不會

已經有不只一位讀者請教我，人工智慧是否會造成大量失業的問題，於是催生了本篇文章，這裡會從多個角度來分析這件事情。

#第四次工業革命 #人工智慧與失業問題 #高階經理人危機

開啟一切可能性的鑰匙，8K Text Embedding Model

#TextEmbedding #AI推薦系統 #阿斯拉強化學習

發揮以小搏大的精神，直接蒸餾法訓練Mistral 7B

為了使小模型取得大模型的回答水平這篇論文提出了三招，"大幅度"提升Mistral 7B模型的回答準確率如果有想要把LLM微調好的人，一定不能錯過這篇

你可能也想看

Perplexity：重新定義搜索體驗的答案引擎

隨著互聯網的發展，搜尋引擎已成為我們日常生活中不可或缺的一部分。然而，隨著科技的進步和人們需求的多樣化，傳統的搜尋引擎已經無法滿足所有的需求。這正是Perplexity出現的原因。作為一種被稱為“答案引擎”的新型搜尋工具，Perplexity正試圖重新定義我們獲取信息的方式。什麼是Perpl

#perplexity #拐點 #AI

王啟樺的沙龍

2024/06/13

C003｜為什麼大語言模型的嵌入需要這麼多維度？

大語言模型通常會生產自己的「嵌入 Embedding」作為部分的輸入層，並且在大語言模型的訓練途中不斷優化嵌入的方式，以對特定的任務特定的數據優化。而大語言模型使用的「嵌入維度 Embedding Dimension」通常是高維度的，例如最小的GPT-2模型有1億1千

#大語言模型 #GPT2 #GPT3

螃蟹_crab的沙龍

2024/05/18

[機器學習]感知器(Perceptron)學習心得

感知器是一種基本的神經網路模型，用於二分類問題。它模擬了人腦神經元的工作原理，通過調整權重和偏差值來達到預測和分類的目的。感知器流程輸入資料的輸入: 輸入層接受資料的輸入，每個輸入對應一個特徵，還有一個固定的偏差神經元。資料經過每個神經元時，會乘上相應的

#Perceptron #Python #機器學習

逍遙資訊

2024/05/15

Perplexity AI 搜尋引擎：彙整網路資訊提供回覆

Perplexity AI 是一款使用 GPT 模型的人工智慧搜尋引擎，提供即時、準確且廣泛的網路搜尋服務，根據用戶提問自動篩選和整理相關資料，並附上參考來源連結。

#搜尋引擎 #GPT #PerplexityAI

化繁為簡是很重要的思考能力！

LLM 005｜大語言模型是如何利用Transformer理解語言的？

現代大語言模型建構於Transformer結構。 Transformer結構是源自於2017年著名論文 Attention Is All You Need的深度神經網路結構。原始的Trasformer是為了機器翻譯發展，當初的任務是將英文翻譯成德文與法文。 Transformer

#大語言模型 #Transformer #ChatGPT

平安補習班的沙龍

2024/04/27

跨考諮商所的困難從來都不是知識的缺少，而是實務經驗不足

心理師跨領域學習需要具備專業知識以及晤談技巧，從事心理領域的人士必須花時間學習新的領域語言和技巧，以備面對不同的個案挑戰。

數感是一個非常籠統的詞語，我個人的解讀是對數字的敏感度。計算能力對於數學上得高分是最重要且容易被忽視的；珠心算對於算好數學有幫助，練習計算能力不難，從基本的四則運算開始，慢慢進階到分數、括號或較複雜的題型。記憶力和判斷力在數學學習中也扮演重要的角色。

#數學 #數字 #老師

一二三的沙龍

2024/03/13

探索OpenAI的Transformer Debugger：開啟語言模型透明度的新篇章

在 AI 研究的領域中，理解和解釋語言模型如何處理和回應特定輸入始終是一項巨大挑戰。這種復雜性不僅限於模型的規模和結構，還涉及到它們如何在內部做出決策。為了應對這一挑戰，OpenAI 推出了一款名為 Transformer Debugger (TDB) 的工具，旨在深入探索小型語言模型的行為

#openai #transformer #debugger

〈FanpagePBP〉

Perplexity：重新定義搜索體驗的答案引擎

#perplexity #拐點 #AI

王啟樺的沙龍

2024/06/13

C003｜為什麼大語言模型的嵌入需要這麼多維度？

#大語言模型 #GPT2 #GPT3

螃蟹_crab的沙龍

2024/05/18

[機器學習]感知器(Perceptron)學習心得

#Perceptron #Python #機器學習

逍遙資訊

2024/05/15

Perplexity AI 搜尋引擎：彙整網路資訊提供回覆

#搜尋引擎 #GPT #PerplexityAI

化繁為簡是很重要的思考能力！

LLM 005｜大語言模型是如何利用Transformer理解語言的？

#大語言模型 #Transformer #ChatGPT

平安補習班的沙龍

2024/04/27

跨考諮商所的困難從來都不是知識的缺少，而是實務經驗不足

心理師跨領域學習需要具備專業知識以及晤談技巧，從事心理領域的人士必須花時間學習新的領域語言和技巧，以備面對不同的個案挑戰。

#數學 #數字 #老師

探索OpenAI的Transformer Debugger：開啟語言模型透明度的新篇章

#openai #transformer #debugger

〈FanpagePBP〉

三分鐘搞懂語言模型能力指標，Perplexity (困惑度)

上帝視角:

pθ :

θ :

pθ(xi | x<i) :

-log(機率) :

exp{}:

計算細節:

限制:

引用:

p_θ:

_θ:

p_θ(x_i| x<_i) :