三分鐘搞懂語言模型能力指標,Perplexity (困惑度)

更新於 發佈於 閱讀時間約 2 分鐘

如何評量一個大型語言模型有學到東西? 其中一個常用指標就是Perplexity(困惑度)。由於困惑度被大量論文引用,學習CP值很高,所以寫專文介紹。

上帝視角:

相信大家有做過英文填空題,如果單字沒有背熟,文法沒有搞懂,在缺乏足夠知識的情況下,每個選項感覺都對,無法選出正確答案。

對沒讀書的人來說,這個題目資訊量很大,腦中缺乏知識導致。而對於學霸來說,這題就是一塊蛋糕 (A piece of cake),由於答題所需的知識充足,題目沒有給他帶來的任何的額外資訊量,直接能確定正確答案。

基於資料壓縮與編碼長度理念計算的困惑度

基於資料壓縮與編碼長度理念計算的困惑度

pθ :

你的認知機率模型,用來回答考題的大腦神經元區塊。

θ :

腦袋裡面神經元儲存的認知參數,知道的相關知識越多,越有助於做出肯定的判斷。

pθ(xi | x<i) :

看到填空題除了填空以外的所有單字,如果沒有任何困惑,100%確定答案,可直接填入答案,如果有考慮其他選項,產生一定的困惑,就會小於100%。

-log(機率) :

如果沒有任何困惑,答案唯一被你確定,不需要額外的講解,就能填入正確答案,所以不需要額外的任何資訊(編碼)。

反之,如果這題你完全不懂,則需要老師的深入解說,你才會做答。越困惑,每個選項的機率均分,皆有可能,此時所需要的額外資訊量越大(編碼越長)。

exp{}:

平均編碼長度越長也就越困惑,代表需要額外的資訊進行講解。困惑度值域為 1~∞。


計算細節:

一般在Transformer Context window長度不夠的時候,會使用Sliding Window來做計算,Context window 為Transformer能一起看到的輸入Token長度。

Context Window 足夠大的情形

Context Window 足夠大的情形

Context Window不夠大,使用Sliding window進行計算

Context Window不夠大,使用Sliding window進行計算

限制:

當困惑度為1的時候,未必代表模型遇到未知的新問題,綜合表現能力也可以很好,極有可能是個書呆子,藉由死背答案來百分之百確定答案,所以實驗設計需要分訓練集與測試集,用沒有看過的題目來測試是否是死背答案。這也是老師考的都沒教的主要原因,師父引進門,修行在個人,測試舉一反三的能力。

引用:

https://huggingface.co/docs/transformers/perplexity
https://thegradient.pub/understanding-evaluation-metrics-for-language-models/


如果你對 AI 充滿熱情,學習上又不想浪費時間,我能夠以過來人的經驗給你不少想法,歡迎在Facebook群裡面留言。

如果想要用Zoom直接交談,為你直接解惑的,也可以點以下連結預約時間 (1小時)

https://calendly.com/universe_ai/free_appointment

avatar-img
95會員
128內容數
帶你用上帝視角,針對市面上具有高度價值的影片/論文/書籍,用東方取象,與西方邏輯辯證的角度同時出發,跟著我一起來探討宇宙萬事萬物的本質,隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷,近期對於人工智慧,東方易經,西方辯證邏輯,還有佛法向內求有深度興趣。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
相信替影片配字幕是許多人心中的痛,本文帶你在三分鐘內能夠用你的電腦,實做聲音轉字幕網站,準備好了就來吧!
根據熱力學熵增鐵律,多數人認為宇宙會最終會進入熱寂(亂度散度最大化),然後死去,但事實或許不然,一年有四季,日昇日落,大自然注定是生生不息,循環往復的,有鑑於近來大量閱讀AI關於模型與映射的概念,突然靈光乍現,想出了一套能讓宇宙生生不息的假說,讓我們一起來逐步論證!
相信有不少人在剛接觸Attention is all you need這篇論文的時候,最感到困惑的就是Positional Encoding,知道公式長怎樣,不外乎就是Cosine / Sine,但始終無法直搗黃龍,理解背後的道理,本篇文提供各種觀點,讓你三分鐘內搞懂!
已經有不只一位讀者請教我,人工智慧是否會造成大量失業的問題,於是催生了本篇文章,這裡會從多個角度來分析這件事情。
要檢查兩段長篇文字,內容是否雷同,長久以來困擾著大家,沒有好的嵌入模型,會耗費大量人力,需要對長篇文檔進行人工閱讀然後人工分類。本文除了展示如何能完美的解決這個痛點以外,也提供一些延伸應用思路,學習CP值很高。期待你能從本文取得許多新的應用思路與應用潛力!
為了使小模型取得大模型的回答水平 這篇論文提出了三招,"大幅度"提升Mistral 7B模型的回答準確率 如果有想要把LLM微調好的人,一定不能錯過這篇
相信替影片配字幕是許多人心中的痛,本文帶你在三分鐘內能夠用你的電腦,實做聲音轉字幕網站,準備好了就來吧!
根據熱力學熵增鐵律,多數人認為宇宙會最終會進入熱寂(亂度散度最大化),然後死去,但事實或許不然,一年有四季,日昇日落,大自然注定是生生不息,循環往復的,有鑑於近來大量閱讀AI關於模型與映射的概念,突然靈光乍現,想出了一套能讓宇宙生生不息的假說,讓我們一起來逐步論證!
相信有不少人在剛接觸Attention is all you need這篇論文的時候,最感到困惑的就是Positional Encoding,知道公式長怎樣,不外乎就是Cosine / Sine,但始終無法直搗黃龍,理解背後的道理,本篇文提供各種觀點,讓你三分鐘內搞懂!
已經有不只一位讀者請教我,人工智慧是否會造成大量失業的問題,於是催生了本篇文章,這裡會從多個角度來分析這件事情。
要檢查兩段長篇文字,內容是否雷同,長久以來困擾著大家,沒有好的嵌入模型,會耗費大量人力,需要對長篇文檔進行人工閱讀然後人工分類。本文除了展示如何能完美的解決這個痛點以外,也提供一些延伸應用思路,學習CP值很高。期待你能從本文取得許多新的應用思路與應用潛力!
為了使小模型取得大模型的回答水平 這篇論文提出了三招,"大幅度"提升Mistral 7B模型的回答準確率 如果有想要把LLM微調好的人,一定不能錯過這篇
你可能也想看
Google News 追蹤
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
隨著互聯網的發展,搜尋引擎已成為我們日常生活中不可或缺的一部分。然而,隨著科技的進步和人們需求的多樣化,傳統的搜尋引擎已經無法滿足所有的需求。這正是Perplexity出現的原因。作為一種被稱為“答案引擎”的新型搜尋工具,Perplexity正試圖重新定義我們獲取信息的方式。 什麼是Perpl
大語言模型通常會生產自己的「嵌入 Embedding」作為部分的輸入層, 並且在大語言模型的訓練途中不斷優化嵌入的方式, 以對特定的任務特定的數據優化。 而大語言模型使用的「嵌入維度 Embedding Dimension」通常是高維度的, 例如最小的GPT-2模型有1億1千
Thumbnail
感知器是一種基本的神經網路模型,用於二分類問題。它模擬了人腦神經元的工作原理,通過調整權重和偏差值來達到預測和分類的目的。 感知器流程 輸入 資料的輸入: 輸入層接受資料的輸入,每個輸入對應一個特徵,還有一個固定的偏差神經元。 資料經過每個神經元時,會乘上相應的
Thumbnail
Perplexity AI 是一款使用 GPT 模型的人工智慧搜尋引擎,提供即時、準確且廣泛的網路搜尋服務,根據用戶提問自動篩選和整理相關資料,並附上參考來源連結。
現代大語言模型建構於Transformer結構。 Transformer結構是源自於2017年著名論文 Attention Is All You Need的深度神經網路結構。 原始的Trasformer是為了機器翻譯發展,當初的任務是將英文翻譯成德文與法文。 Transformer
心理師跨領域學習需要具備專業知識以及晤談技巧,從事心理領域的人士必須花時間學習新的領域語言和技巧,以備面對不同的個案挑戰。
Thumbnail
數感是一個非常籠統的詞語,我個人的解讀是對數字的敏感度。計算能力對於數學上得高分是最重要且容易被忽視的;珠心算對於算好數學有幫助,練習計算能力不難,從基本的四則運算開始,慢慢進階到分數、括號或較複雜的題型。記憶力和判斷力在數學學習中也扮演重要的角色。
Thumbnail
在 AI 研究的領域中,理解和解釋語言模型如何處理和回應特定輸入始終是一項巨大挑戰。這種復雜性不僅限於模型的規模和結構,還涉及到它們如何在內部做出決策。為了應對這一挑戰,OpenAI 推出了一款名為 Transformer Debugger (TDB) 的工具,旨在深入探索小型語言模型的行為
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
隨著互聯網的發展,搜尋引擎已成為我們日常生活中不可或缺的一部分。然而,隨著科技的進步和人們需求的多樣化,傳統的搜尋引擎已經無法滿足所有的需求。這正是Perplexity出現的原因。作為一種被稱為“答案引擎”的新型搜尋工具,Perplexity正試圖重新定義我們獲取信息的方式。 什麼是Perpl
大語言模型通常會生產自己的「嵌入 Embedding」作為部分的輸入層, 並且在大語言模型的訓練途中不斷優化嵌入的方式, 以對特定的任務特定的數據優化。 而大語言模型使用的「嵌入維度 Embedding Dimension」通常是高維度的, 例如最小的GPT-2模型有1億1千
Thumbnail
感知器是一種基本的神經網路模型,用於二分類問題。它模擬了人腦神經元的工作原理,通過調整權重和偏差值來達到預測和分類的目的。 感知器流程 輸入 資料的輸入: 輸入層接受資料的輸入,每個輸入對應一個特徵,還有一個固定的偏差神經元。 資料經過每個神經元時,會乘上相應的
Thumbnail
Perplexity AI 是一款使用 GPT 模型的人工智慧搜尋引擎,提供即時、準確且廣泛的網路搜尋服務,根據用戶提問自動篩選和整理相關資料,並附上參考來源連結。
現代大語言模型建構於Transformer結構。 Transformer結構是源自於2017年著名論文 Attention Is All You Need的深度神經網路結構。 原始的Trasformer是為了機器翻譯發展,當初的任務是將英文翻譯成德文與法文。 Transformer
心理師跨領域學習需要具備專業知識以及晤談技巧,從事心理領域的人士必須花時間學習新的領域語言和技巧,以備面對不同的個案挑戰。
Thumbnail
數感是一個非常籠統的詞語,我個人的解讀是對數字的敏感度。計算能力對於數學上得高分是最重要且容易被忽視的;珠心算對於算好數學有幫助,練習計算能力不難,從基本的四則運算開始,慢慢進階到分數、括號或較複雜的題型。記憶力和判斷力在數學學習中也扮演重要的角色。
Thumbnail
在 AI 研究的領域中,理解和解釋語言模型如何處理和回應特定輸入始終是一項巨大挑戰。這種復雜性不僅限於模型的規模和結構,還涉及到它們如何在內部做出決策。為了應對這一挑戰,OpenAI 推出了一款名為 Transformer Debugger (TDB) 的工具,旨在深入探索小型語言模型的行為