GM 001|語言模型真的能生成真實的表格數據嗎?

更新於 2024/06/29閱讀時間約 3 分鐘

今天聊聊由 Vadim Borisov[1]於2023年發表的文章,


《Language Models are Realistic Tabular Data Generators》[2]。


這篇文章的看點,是提出了GReaT 框架,實現使用「大語言模型 Large Language Model (LLM)」來產生「表格數據 Tabular Data」。


GReaT是Generation of Realistic Tabular data的縮寫,其實就是「產生幾近真實的表格數據」的意思。


GReaT的一大優點,是能夠做「條件生成 Conditional Generation」。


你可以給定一組特徵的子集,那GReaT幫你補剩下沒有指定了欄位。


從統計科學的角度看,這是一種很吸引人的「缺失值補齊 Missing Value Imputation」[3] 的方法!


而如果我們從「生成式建模 Generative Modeling」的角度來看,在生成表格數據時,我們要問自己:


我如何將表格的「一列 Row」轉為生成模型需要的向量表達?


在文章的3.1節,Vadim介紹了一種稱為「文本編碼器 Textual Encoder」的編碼方式,將「表格」轉為「文本」。


而這個文本編碼器也很簡單,稱為「主語-謂語-賓語轉換 subject-predicate-object transformation」。


舉一個例子。


在表格上,我們可以有一列,


紀錄著「年紀59,教育碩士,性別男性」,


那其實你現在“唸出這一列”所用的語言,


就是GReaT使用的文本編碼,


就是所謂的主語-謂語-賓語轉換 。


而了解GReaT的文本編碼方式後,


你可以多注意到一點,就是「表格要先唸哪個欄位,其實沒有規定」。


你可以把上面那個例子唸成「教育碩士,年紀59,性別男性」,


也可以唸成「性別男性,年紀59,教育碩士」。


而由於語言模型是使用「自迴歸建模 Auto-Regressive Modeling」[4],


打亂文本編碼時欄位的順序,


更有助於語言模型理解這些欄位之間是獨立的,


也就賦予了語言模型有能夠做「條件生成 Conditional Generation」的能力。


Reference

[1] https://uni-tuebingen.de/en/fakultaeten/mathematisch-naturwissenschaftliche-fakultaet/fachbereiche/informatik/lehrstuehle/data-science-analytics/team/dr-vadim-borisov/

[2] https://arxiv.org/abs/2210.06280

[3] https://en.wikipedia.org/wiki/Imputation_(statistics)

[4] https://aws.amazon.com/tw/what-is/autoregressive-models/

    avatar-img
    528會員
    1.8K內容數
    Outline as Content
    留言0
    查看全部
    avatar-img
    發表第一個留言支持創作者!
    王啟樺的沙龍 的其他內容
    無論你是熱愛閱讀的書迷, 還是渴望通過讀書獲得成長的人, 這篇文章都適合你。 本文將分享3個啟示, 幫助你從閱讀中真正獲得改變。 讓我們一同探索這些啟示, 改變我們的閱讀方式吧! ▋啟示1 - 聚焦內在轉變 很多帳號每天拆解各種書籍, 提供簡短的
    在2024年6月15日, 我舉辦了兩場關於Obsidian閱讀的講座。 當初總共收到了90個人的報名, 而最後實際有參加的人也到了55個, 比我預期會真的出現的人數還多。 辦講座對我最大的好處, 就是趁這個機會, 把我的學術閱讀工作流工具化, 標準化,
    "The working relationship between experts and novices is a bundle of three Cs that human need to develop mastery: Challenge, Complexity, and Connectio
    「為了達到目標,必要的三元素是: 01 太想達到而無法自拔的「目標」 02 有辦法實踐的「計畫」 03 能改變未來,現在就能做的「行動」。」 這段話,節錄於日本作者吉武麻子[1]的著書, 《目標や夢が達成できる 1年・1カ月・1週間・1日の時間術 》[2]的第23頁。
    2024年6月15日, 清風不識字何必亂翻書的日子已經過了16年, 從16歲的高中一年級到現在的32歲。 雖然一年都會翻數百本書, 但值到今天,我才發現一個能高效率讀書的方式。 這個方式是:選7本書,整天就讀這7本, 每一本只要遇到有啟發的段落, 就摘錄出來
    對於熱愛寫作的你來說,掌握有效的寫作技巧能夠讓你的文字更加引人入勝。如果你想要在自由書寫中產生更多有意義的內容,以下三個關鍵技巧將對你大有幫助。這些技巧不僅能夠幫你聚焦於特定話題,還能讓你的文章更加豐富與有說服力。 話題編織觀點:選擇一組與你的主題相關的關鍵字,圍繞這些關鍵字展開你的寫作。這種方法
    無論你是熱愛閱讀的書迷, 還是渴望通過讀書獲得成長的人, 這篇文章都適合你。 本文將分享3個啟示, 幫助你從閱讀中真正獲得改變。 讓我們一同探索這些啟示, 改變我們的閱讀方式吧! ▋啟示1 - 聚焦內在轉變 很多帳號每天拆解各種書籍, 提供簡短的
    在2024年6月15日, 我舉辦了兩場關於Obsidian閱讀的講座。 當初總共收到了90個人的報名, 而最後實際有參加的人也到了55個, 比我預期會真的出現的人數還多。 辦講座對我最大的好處, 就是趁這個機會, 把我的學術閱讀工作流工具化, 標準化,
    "The working relationship between experts and novices is a bundle of three Cs that human need to develop mastery: Challenge, Complexity, and Connectio
    「為了達到目標,必要的三元素是: 01 太想達到而無法自拔的「目標」 02 有辦法實踐的「計畫」 03 能改變未來,現在就能做的「行動」。」 這段話,節錄於日本作者吉武麻子[1]的著書, 《目標や夢が達成できる 1年・1カ月・1週間・1日の時間術 》[2]的第23頁。
    2024年6月15日, 清風不識字何必亂翻書的日子已經過了16年, 從16歲的高中一年級到現在的32歲。 雖然一年都會翻數百本書, 但值到今天,我才發現一個能高效率讀書的方式。 這個方式是:選7本書,整天就讀這7本, 每一本只要遇到有啟發的段落, 就摘錄出來
    對於熱愛寫作的你來說,掌握有效的寫作技巧能夠讓你的文字更加引人入勝。如果你想要在自由書寫中產生更多有意義的內容,以下三個關鍵技巧將對你大有幫助。這些技巧不僅能夠幫你聚焦於特定話題,還能讓你的文章更加豐富與有說服力。 話題編織觀點:選擇一組與你的主題相關的關鍵字,圍繞這些關鍵字展開你的寫作。這種方法
    你可能也想看
    Google News 追蹤
    Thumbnail
    徵的就是你 🫵 超ㄅㄧㄤˋ 獎品搭配超瞎趴的四大主題,等你踹共啦!還有機會獲得經典的「偉士牌樂高」喔!馬上來參加本次的活動吧!
    Thumbnail
    隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
    Thumbnail
    在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
    Thumbnail
    我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
    https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
    Thumbnail
    在AI時代中,GPT技術正在改變我們的生活。然而,SLM(小型語言模型)也開始受到關注,具有更高的效率、更低的資源消耗和更快的響應速度。這篇文章將討論LLM和SLM的比較、SLM的應用場景以及未來的發展趨勢。
    Thumbnail
    大語言模型(如GPT-3和GPT-4)的出現改變了我們與機器互動的方式。這些模型能夠理解和生成自然語言,實現許多以前無法想像的應用。然而,你可能會好奇,這些模型究竟是如何理解語言的?這裡,我們來探討一個關鍵的概念:「一切語義都是關係」。
    Thumbnail
    語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
    Thumbnail
    大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
    Thumbnail
    大型語言模型 (LLM) 在最近幾年取得了重大進展,並引起了人們對生成式AI將如何影響工作方式的廣泛重視。雖然 LLM 具有強大的文本生成、翻譯和理解能力,但它們對工作的影響仍然是一個複雜且充滿爭議的話題。 本文摘要自MIT 史隆管理評論,分析LLM 對工作帶來的影響。
    Thumbnail
    大型語言模型(LLM)是基於深度學習的自然語言處理模型,而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言,LMM 能夠處理跨模態的內容,並整合多種資料的能力,有望成為未來趨勢。
    Thumbnail
    大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」。 Prompt Pattern 是給予LLM的指示,並確保生成的輸出擁有特定的品質(和數量)。
    Thumbnail
    徵的就是你 🫵 超ㄅㄧㄤˋ 獎品搭配超瞎趴的四大主題,等你踹共啦!還有機會獲得經典的「偉士牌樂高」喔!馬上來參加本次的活動吧!
    Thumbnail
    隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
    Thumbnail
    在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
    Thumbnail
    我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
    https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
    Thumbnail
    在AI時代中,GPT技術正在改變我們的生活。然而,SLM(小型語言模型)也開始受到關注,具有更高的效率、更低的資源消耗和更快的響應速度。這篇文章將討論LLM和SLM的比較、SLM的應用場景以及未來的發展趨勢。
    Thumbnail
    大語言模型(如GPT-3和GPT-4)的出現改變了我們與機器互動的方式。這些模型能夠理解和生成自然語言,實現許多以前無法想像的應用。然而,你可能會好奇,這些模型究竟是如何理解語言的?這裡,我們來探討一個關鍵的概念:「一切語義都是關係」。
    Thumbnail
    語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
    Thumbnail
    大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
    Thumbnail
    大型語言模型 (LLM) 在最近幾年取得了重大進展,並引起了人們對生成式AI將如何影響工作方式的廣泛重視。雖然 LLM 具有強大的文本生成、翻譯和理解能力,但它們對工作的影響仍然是一個複雜且充滿爭議的話題。 本文摘要自MIT 史隆管理評論,分析LLM 對工作帶來的影響。
    Thumbnail
    大型語言模型(LLM)是基於深度學習的自然語言處理模型,而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言,LMM 能夠處理跨模態的內容,並整合多種資料的能力,有望成為未來趨勢。
    Thumbnail
    大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」。 Prompt Pattern 是給予LLM的指示,並確保生成的輸出擁有特定的品質(和數量)。