三分鐘搞懂語言模型能力指標,Perplexity (困惑度)

閱讀時間約 2 分鐘

如何評量一個大型語言模型有學到東西? 其中一個常用指標就是Perplexity(困惑度)。由於困惑度被大量論文引用,學習CP值很高,所以寫專文介紹。

上帝視角:

相信大家有做過英文填空題,如果單字沒有背熟,文法沒有搞懂,在缺乏足夠知識的情況下,每個選項感覺都對,無法選出正確答案。

對沒讀書的人來說,這個題目資訊量很大,腦中缺乏知識導致。而對於學霸來說,這題就是一塊蛋糕 (A piece of cake),由於答題所需的知識充足,題目沒有給他帶來的任何的額外資訊量,直接能確定正確答案。

基於資料壓縮與編碼長度理念計算的困惑度

基於資料壓縮與編碼長度理念計算的困惑度

pθ :

你的認知機率模型,用來回答考題的大腦神經元區塊。

θ :

腦袋裡面神經元儲存的認知參數,知道的相關知識越多,越有助於做出肯定的判斷。

pθ(xi | x<i) :

看到填空題除了填空以外的所有單字,如果沒有任何困惑,100%確定答案,可直接填入答案,如果有考慮其他選項,產生一定的困惑,就會小於100%。

-log(機率) :

如果沒有任何困惑,答案唯一被你確定,不需要額外的講解,就能填入正確答案,所以不需要額外的任何資訊(編碼)。

反之,如果這題你完全不懂,則需要老師的深入解說,你才會做答。越困惑,每個選項的機率均分,皆有可能,此時所需要的額外資訊量越大(編碼越長)。

exp{}:

平均編碼長度越長也就越困惑,代表需要額外的資訊進行講解。困惑度值域為 1~∞。


計算細節:

一般在Transformer Context window長度不夠的時候,會使用Sliding Window來做計算,Context window 為Transformer能一起看到的輸入Token長度。

Context Window 足夠大的情形

Context Window 足夠大的情形

Context Window不夠大,使用Sliding window進行計算

Context Window不夠大,使用Sliding window進行計算

限制:

當困惑度為1的時候,未必代表模型遇到未知的新問題,綜合表現能力也可以很好,極有可能是個書呆子,藉由死背答案來百分之百確定答案,所以實驗設計需要分訓練集與測試集,用沒有看過的題目來測試是否是死背答案。這也是老師考的都沒教的主要原因,師父引進門,修行在個人,測試舉一反三的能力。

引用:

https://huggingface.co/docs/transformers/perplexity
https://thegradient.pub/understanding-evaluation-metrics-for-language-models/


如果你對 AI 充滿熱情,學習上又不想浪費時間,我能夠以過來人的經驗給你不少想法,歡迎在Facebook群裡面留言。

如果想要用Zoom直接交談,為你直接解惑的,也可以點以下連結預約時間 (1小時)

https://calendly.com/universe_ai/free_appointment

avatar-img
96會員
128內容數
帶你用上帝視角,針對市面上具有高度價值的影片/論文/書籍,用東方取象,與西方邏輯辯證的角度同時出發,跟著我一起來探討宇宙萬事萬物的本質,隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷,近期對於人工智慧,東方易經,西方辯證邏輯,還有佛法向內求有深度興趣。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
相信替影片配字幕是許多人心中的痛,本文帶你在三分鐘內能夠用你的電腦,實做聲音轉字幕網站,準備好了就來吧!
根據熱力學熵增鐵律,多數人認為宇宙會最終會進入熱寂(亂度散度最大化),然後死去,但事實或許不然,一年有四季,日昇日落,大自然注定是生生不息,循環往復的,有鑑於近來大量閱讀AI關於模型與映射的概念,突然靈光乍現,想出了一套能讓宇宙生生不息的假說,讓我們一起來逐步論證!
相信有不少人在剛接觸Attention is all you need這篇論文的時候,最感到困惑的就是Positional Encoding,知道公式長怎樣,不外乎就是Cosine / Sine,但始終無法直搗黃龍,理解背後的道理,本篇文提供各種觀點,讓你三分鐘內搞懂!
已經有不只一位讀者請教我,人工智慧是否會造成大量失業的問題,於是催生了本篇文章,這裡會從多個角度來分析這件事情。
要檢查兩段長篇文字,內容是否雷同,長久以來困擾著大家,沒有好的嵌入模型,會耗費大量人力,需要對長篇文檔進行人工閱讀然後人工分類。本文除了展示如何能完美的解決這個痛點以外,也提供一些延伸應用思路,學習CP值很高。期待你能從本文取得許多新的應用思路與應用潛力!
為了使小模型取得大模型的回答水平 這篇論文提出了三招,"大幅度"提升Mistral 7B模型的回答準確率 如果有想要把LLM微調好的人,一定不能錯過這篇
相信替影片配字幕是許多人心中的痛,本文帶你在三分鐘內能夠用你的電腦,實做聲音轉字幕網站,準備好了就來吧!
根據熱力學熵增鐵律,多數人認為宇宙會最終會進入熱寂(亂度散度最大化),然後死去,但事實或許不然,一年有四季,日昇日落,大自然注定是生生不息,循環往復的,有鑑於近來大量閱讀AI關於模型與映射的概念,突然靈光乍現,想出了一套能讓宇宙生生不息的假說,讓我們一起來逐步論證!
相信有不少人在剛接觸Attention is all you need這篇論文的時候,最感到困惑的就是Positional Encoding,知道公式長怎樣,不外乎就是Cosine / Sine,但始終無法直搗黃龍,理解背後的道理,本篇文提供各種觀點,讓你三分鐘內搞懂!
已經有不只一位讀者請教我,人工智慧是否會造成大量失業的問題,於是催生了本篇文章,這裡會從多個角度來分析這件事情。
要檢查兩段長篇文字,內容是否雷同,長久以來困擾著大家,沒有好的嵌入模型,會耗費大量人力,需要對長篇文檔進行人工閱讀然後人工分類。本文除了展示如何能完美的解決這個痛點以外,也提供一些延伸應用思路,學習CP值很高。期待你能從本文取得許多新的應用思路與應用潛力!
為了使小模型取得大模型的回答水平 這篇論文提出了三招,"大幅度"提升Mistral 7B模型的回答準確率 如果有想要把LLM微調好的人,一定不能錯過這篇
你可能也想看
Google News 追蹤
Thumbnail
我很鼓勵投資人不要只投資台股,對股市有一點熟悉度後,建議範圍擴況大到美股,甚至是投資全球。因為台股僅是單一國家/市場,如果能將資產投資到其他國家,風險會更分散,機會也更多,特別是美國股市。 美股會很難懂嗎?我相信你認識的美國企業可能會比台灣企業多,我從標普500成分股前15大企業裡隨便抓十
Thumbnail
美股因多家熱門話題與龍頭企業市值快速增長受到關注,本文介紹如何透過國泰世華CUBE App 開設台股及美股複委託帳戶、定期理財的便利性。 定期投資適合單筆資金有限、經驗不多的理財小白、上班族,或者忙碌、沒時間研究基本面的朋友,國泰世華CUBE App美股定額投資功能,操作便利性幾乎完勝海外券商。
Thumbnail
這是張老師的第三本書,我想前二本應該也有很多朋友們都有讀過,我想絕對是受益良多,而這次在書名上就直接點出,著重在從投資的角度來切入
Thumbnail
好好利用「三分鐘熱度」把想做的事情做好實際上也是一種高效利用時間的方法。
Thumbnail
三分鐘未來日記分享了一個改變負面思考的方式,透過書寫,感恩日常中的小事物,改變情緒,引發正能量,甚至在寫了幾個月後,作者發生了一個不可思議的變化。
Thumbnail
在步調緊湊的現代生活中,人們面對四面八方的壓力,開始尋找不同方式帶給自己片刻的平靜和舒緩。近幾年誕生許多以水晶為基底的全新療癒樂器,本文將介紹新型態「水晶療癒樂器」的種類,如水晶缽、水晶豎琴、水晶聲波琴等。
Thumbnail
情緒也是能量的一部分, 我們很常為情所困, 所以今天要介紹的是EFT(Emotional Freedom Technique)技巧, 希望透過正確的情緒釋放技巧, 讓大家可以生活過得更輕鬆自在, 不要為難自己跟折磨自己的身心靈
Thumbnail
未來不管是Diffuser還是LLM的微調,都離不開LoRA這項技術,充分理解LoRA的本質是甚麼,CP值特別高。這項技術的理念其實在人工智慧領域行之有年,只是普遍沒有響亮的名字與非常痛的應用場合,在大模型參數量暴增的時刻,重要性被大幅凸顯出來。
Thumbnail
【什麼是SDGs(永續發展目標)?】 聯合國在2015年針對人類面臨共同的挑戰,提出了17項永續發展目標(Sustainable Development Goals),作為2030年前世界各國努力推動永續發展的指導方針。 永續發展目標與我們社會生活緊密扣連,又與觀音山愛護海洋保育放流計畫息息相關。
Thumbnail
酷夏炎熱的腳步很有感的走進了我們的生活。 在冰品、冷氣的誘惑面前,我們同時在熱量、電費與守護北極熊之間反覆掙扎。不如停下來用眼睛吃一頓冰淇淋與蘋果派的怪奇美食物語,或許能讓你的這個夏天有點不一樣。
Thumbnail
你能把A~E的介詞片語放入正確的空格內嗎? 解答: 翻譯 我領悟慢,所以你能詳細解說正確的程序嗎? 我的鄰居和我關係友好。 兩國即將達成協議。 電動車上個月需求量很大。 從我收到他的訊息以來就一直很消沉。
Thumbnail
🍄定義: 布林通道(Bollinger Bands,看盤軟體會寫作Bband軌道線)又被稱為"布林帶"、"保力加通道"、"包寧傑帶狀"、"布歷加通道"。 這項技術指標由"均線"和"標準差"構成下列三條線: 1.上線(軌):以中線為基準往上加兩個標準差,成為股價的壓力線。 2.中線(軌):也就是股價
Thumbnail
我很鼓勵投資人不要只投資台股,對股市有一點熟悉度後,建議範圍擴況大到美股,甚至是投資全球。因為台股僅是單一國家/市場,如果能將資產投資到其他國家,風險會更分散,機會也更多,特別是美國股市。 美股會很難懂嗎?我相信你認識的美國企業可能會比台灣企業多,我從標普500成分股前15大企業裡隨便抓十
Thumbnail
美股因多家熱門話題與龍頭企業市值快速增長受到關注,本文介紹如何透過國泰世華CUBE App 開設台股及美股複委託帳戶、定期理財的便利性。 定期投資適合單筆資金有限、經驗不多的理財小白、上班族,或者忙碌、沒時間研究基本面的朋友,國泰世華CUBE App美股定額投資功能,操作便利性幾乎完勝海外券商。
Thumbnail
這是張老師的第三本書,我想前二本應該也有很多朋友們都有讀過,我想絕對是受益良多,而這次在書名上就直接點出,著重在從投資的角度來切入
Thumbnail
好好利用「三分鐘熱度」把想做的事情做好實際上也是一種高效利用時間的方法。
Thumbnail
三分鐘未來日記分享了一個改變負面思考的方式,透過書寫,感恩日常中的小事物,改變情緒,引發正能量,甚至在寫了幾個月後,作者發生了一個不可思議的變化。
Thumbnail
在步調緊湊的現代生活中,人們面對四面八方的壓力,開始尋找不同方式帶給自己片刻的平靜和舒緩。近幾年誕生許多以水晶為基底的全新療癒樂器,本文將介紹新型態「水晶療癒樂器」的種類,如水晶缽、水晶豎琴、水晶聲波琴等。
Thumbnail
情緒也是能量的一部分, 我們很常為情所困, 所以今天要介紹的是EFT(Emotional Freedom Technique)技巧, 希望透過正確的情緒釋放技巧, 讓大家可以生活過得更輕鬆自在, 不要為難自己跟折磨自己的身心靈
Thumbnail
未來不管是Diffuser還是LLM的微調,都離不開LoRA這項技術,充分理解LoRA的本質是甚麼,CP值特別高。這項技術的理念其實在人工智慧領域行之有年,只是普遍沒有響亮的名字與非常痛的應用場合,在大模型參數量暴增的時刻,重要性被大幅凸顯出來。
Thumbnail
【什麼是SDGs(永續發展目標)?】 聯合國在2015年針對人類面臨共同的挑戰,提出了17項永續發展目標(Sustainable Development Goals),作為2030年前世界各國努力推動永續發展的指導方針。 永續發展目標與我們社會生活緊密扣連,又與觀音山愛護海洋保育放流計畫息息相關。
Thumbnail
酷夏炎熱的腳步很有感的走進了我們的生活。 在冰品、冷氣的誘惑面前,我們同時在熱量、電費與守護北極熊之間反覆掙扎。不如停下來用眼睛吃一頓冰淇淋與蘋果派的怪奇美食物語,或許能讓你的這個夏天有點不一樣。
Thumbnail
你能把A~E的介詞片語放入正確的空格內嗎? 解答: 翻譯 我領悟慢,所以你能詳細解說正確的程序嗎? 我的鄰居和我關係友好。 兩國即將達成協議。 電動車上個月需求量很大。 從我收到他的訊息以來就一直很消沉。
Thumbnail
🍄定義: 布林通道(Bollinger Bands,看盤軟體會寫作Bband軌道線)又被稱為"布林帶"、"保力加通道"、"包寧傑帶狀"、"布歷加通道"。 這項技術指標由"均線"和"標準差"構成下列三條線: 1.上線(軌):以中線為基準往上加兩個標準差,成為股價的壓力線。 2.中線(軌):也就是股價