GM 001|語言模型真的能生成真實的表格數據嗎?

閱讀時間約 3 分鐘

今天聊聊由 Vadim Borisov[1]於2023年發表的文章,


《Language Models are Realistic Tabular Data Generators》[2]。


這篇文章的看點,是提出了GReaT 框架,實現使用「大語言模型 Large Language Model (LLM)」來產生「表格數據 Tabular Data」。


GReaT是Generation of Realistic Tabular data的縮寫,其實就是「產生幾近真實的表格數據」的意思。


GReaT的一大優點,是能夠做「條件生成 Conditional Generation」。


你可以給定一組特徵的子集,那GReaT幫你補剩下沒有指定了欄位。


從統計科學的角度看,這是一種很吸引人的「缺失值補齊 Missing Value Imputation」[3] 的方法!


而如果我們從「生成式建模 Generative Modeling」的角度來看,在生成表格數據時,我們要問自己:


我如何將表格的「一列 Row」轉為生成模型需要的向量表達?


在文章的3.1節,Vadim介紹了一種稱為「文本編碼器 Textual Encoder」的編碼方式,將「表格」轉為「文本」。


而這個文本編碼器也很簡單,稱為「主語-謂語-賓語轉換 subject-predicate-object transformation」。


舉一個例子。


在表格上,我們可以有一列,


紀錄著「年紀59,教育碩士,性別男性」,


那其實你現在“唸出這一列”所用的語言,


就是GReaT使用的文本編碼,


就是所謂的主語-謂語-賓語轉換 。


而了解GReaT的文本編碼方式後,


你可以多注意到一點,就是「表格要先唸哪個欄位,其實沒有規定」。


你可以把上面那個例子唸成「教育碩士,年紀59,性別男性」,


也可以唸成「性別男性,年紀59,教育碩士」。


而由於語言模型是使用「自迴歸建模 Auto-Regressive Modeling」[4],


打亂文本編碼時欄位的順序,


更有助於語言模型理解這些欄位之間是獨立的,


也就賦予了語言模型有能夠做「條件生成 Conditional Generation」的能力。


Reference

[1] https://uni-tuebingen.de/en/fakultaeten/mathematisch-naturwissenschaftliche-fakultaet/fachbereiche/informatik/lehrstuehle/data-science-analytics/team/dr-vadim-borisov/

[2] https://arxiv.org/abs/2210.06280

[3] https://en.wikipedia.org/wiki/Imputation_(statistics)

[4] https://aws.amazon.com/tw/what-is/autoregressive-models/

    367會員
    1.2K內容數
    Outline as Content
    留言0
    查看全部
    發表第一個留言支持創作者!
    王啟樺的沙龍 的其他內容
    無論你是熱愛閱讀的書迷, 還是渴望通過讀書獲得成長的人, 這篇文章都適合你。 本文將分享3個啟示, 幫助你從閱讀中真正獲得改變。 讓我們一同探索這些啟示, 改變我們的閱讀方式吧! ▋啟示1 - 聚焦內在轉變 很多帳號每天拆解各種書籍, 提供簡短的
    在2024年6月15日, 我舉辦了兩場關於Obsidian閱讀的講座。 當初總共收到了90個人的報名, 而最後實際有參加的人也到了55個, 比我預期會真的出現的人數還多。 辦講座對我最大的好處, 就是趁這個機會, 把我的學術閱讀工作流工具化, 標準化,
    "The working relationship between experts and novices is a bundle of three Cs that human need to develop mastery: Challenge, Complexity, and Connectio
    「為了達到目標,必要的三元素是: 01 太想達到而無法自拔的「目標」 02 有辦法實踐的「計畫」 03 能改變未來,現在就能做的「行動」。」 這段話,節錄於日本作者吉武麻子[1]的著書, 《目標や夢が達成できる 1年・1カ月・1週間・1日の時間術 》[2]的第23頁。
    2024年6月15日, 清風不識字何必亂翻書的日子已經過了16年, 從16歲的高中一年級到現在的32歲。 雖然一年都會翻數百本書, 但值到今天,我才發現一個能高效率讀書的方式。 這個方式是:選7本書,整天就讀這7本, 每一本只要遇到有啟發的段落, 就摘錄出來
    對於熱愛寫作的你來說,掌握有效的寫作技巧能夠讓你的文字更加引人入勝。如果你想要在自由書寫中產生更多有意義的內容,以下三個關鍵技巧將對你大有幫助。這些技巧不僅能夠幫你聚焦於特定話題,還能讓你的文章更加豐富與有說服力。 話題編織觀點:選擇一組與你的主題相關的關鍵字,圍繞這些關鍵字展開你的寫作。這種方法
    無論你是熱愛閱讀的書迷, 還是渴望通過讀書獲得成長的人, 這篇文章都適合你。 本文將分享3個啟示, 幫助你從閱讀中真正獲得改變。 讓我們一同探索這些啟示, 改變我們的閱讀方式吧! ▋啟示1 - 聚焦內在轉變 很多帳號每天拆解各種書籍, 提供簡短的
    在2024年6月15日, 我舉辦了兩場關於Obsidian閱讀的講座。 當初總共收到了90個人的報名, 而最後實際有參加的人也到了55個, 比我預期會真的出現的人數還多。 辦講座對我最大的好處, 就是趁這個機會, 把我的學術閱讀工作流工具化, 標準化,
    "The working relationship between experts and novices is a bundle of three Cs that human need to develop mastery: Challenge, Complexity, and Connectio
    「為了達到目標,必要的三元素是: 01 太想達到而無法自拔的「目標」 02 有辦法實踐的「計畫」 03 能改變未來,現在就能做的「行動」。」 這段話,節錄於日本作者吉武麻子[1]的著書, 《目標や夢が達成できる 1年・1カ月・1週間・1日の時間術 》[2]的第23頁。
    2024年6月15日, 清風不識字何必亂翻書的日子已經過了16年, 從16歲的高中一年級到現在的32歲。 雖然一年都會翻數百本書, 但值到今天,我才發現一個能高效率讀書的方式。 這個方式是:選7本書,整天就讀這7本, 每一本只要遇到有啟發的段落, 就摘錄出來
    對於熱愛寫作的你來說,掌握有效的寫作技巧能夠讓你的文字更加引人入勝。如果你想要在自由書寫中產生更多有意義的內容,以下三個關鍵技巧將對你大有幫助。這些技巧不僅能夠幫你聚焦於特定話題,還能讓你的文章更加豐富與有說服力。 話題編織觀點:選擇一組與你的主題相關的關鍵字,圍繞這些關鍵字展開你的寫作。這種方法
    你可能也想看
    Thumbnail
    1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
    Thumbnail
    近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
    Thumbnail
    2019年時有一場很特別的TRPG推廣活動,名為「龍與地下城 5 版 GM 培訓課程」。 這活動特別地方在於,它是以培養龍與地下城系統的「DM」為目標,而不是「玩家」。對我來說,這是我實際開始接觸TRPG的起點。 這篇文章是想針對一些網路流言做釐清,並將幾年前的依稀記憶記錄下來…
    Thumbnail
    #2024GM春 #天國與地獄 雖然這款不禁讓我連想到2023年的「天使與惡魔」但它不是吃墩遊戲,而是大老二遊戲。看簡介有導入最近討論度很高的「接替手牌」機制,感覺有點意思,預備入手 #Bartendoubt (暫譯:吹牛調酒大師) 真正的調酒大師喝一口就知道比例,但是,你確定他說的是真的嗎
    Polymetal International plc: Results of GM Polymetal International plc Results of GM Polymetal International plc (the “Company”) announces that at
    Thumbnail
    前陣子在滑噗浪河道時,看到了一波跟風潮提問了:分享一下對你而言,GM最重要的一項特質是什麼? 起初看到這個問題時,我猶豫了很久。除了選擇障礙的原因外,好像有其他更深的理由讓我遲遲無法下決定。 後來細思後,那個問題變成了:「面對TRPG時,GM最重要的特質是什麼?」
    一個魚塘内的魚,從出世開始,便生活在這個魚塘之内,他們的視野也只能停留在魚塘之内,一直沒有受到外在的水流衝擊,哪怕出面風高浪急,也不管,也管不了。 日子長了,魚塘内的魚因爲沒有外在威脅,慢慢變得反應遲鈍,哪怕有漁夫拿著魚叉漁網,也不懂閃躲,漁夫們便樂翻了,一槍一條,一網一大羅,百發百中。 一家公司,
    Thumbnail
    GM 最新商業模式:幫特斯拉修車,趕特斯拉電動車銷售方面或許不太順利,但這家百年車廠在另一個市場找到契機:電動車維修。 不過也不用太傷心,目前賣電動車的廠商,還沒有人打贏特斯拉【註】,打不敗怎麼辦,那我就加入他,這是GM新嗅到的契機,雖然一開始看到這個新聞我覺得蠻好笑的,第一次有財經訊息讓我笑出來。
    Thumbnail
    在Tesla努力賣車賺錢的同時,有不少人覺得他們最後還是會被收購。然而,Tesla的市值其實已經超過許多傳統車廠的總和,應該是他們買別人吧?如果要買的話,Tesla會考慮乾脆買下一家傳統車廠,來取得更強大的生產和銷售能量嗎?
    Thumbnail
    ​ 上面那隻是GM的奇怪吉祥物之一 看起來像企鵝跟紅面薑母鴨的混種XD 但是牠有肚臍ㄟ!!! 所以其實是胎生的??
    Thumbnail
    1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
    Thumbnail
    近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
    Thumbnail
    2019年時有一場很特別的TRPG推廣活動,名為「龍與地下城 5 版 GM 培訓課程」。 這活動特別地方在於,它是以培養龍與地下城系統的「DM」為目標,而不是「玩家」。對我來說,這是我實際開始接觸TRPG的起點。 這篇文章是想針對一些網路流言做釐清,並將幾年前的依稀記憶記錄下來…
    Thumbnail
    #2024GM春 #天國與地獄 雖然這款不禁讓我連想到2023年的「天使與惡魔」但它不是吃墩遊戲,而是大老二遊戲。看簡介有導入最近討論度很高的「接替手牌」機制,感覺有點意思,預備入手 #Bartendoubt (暫譯:吹牛調酒大師) 真正的調酒大師喝一口就知道比例,但是,你確定他說的是真的嗎
    Polymetal International plc: Results of GM Polymetal International plc Results of GM Polymetal International plc (the “Company”) announces that at
    Thumbnail
    前陣子在滑噗浪河道時,看到了一波跟風潮提問了:分享一下對你而言,GM最重要的一項特質是什麼? 起初看到這個問題時,我猶豫了很久。除了選擇障礙的原因外,好像有其他更深的理由讓我遲遲無法下決定。 後來細思後,那個問題變成了:「面對TRPG時,GM最重要的特質是什麼?」
    一個魚塘内的魚,從出世開始,便生活在這個魚塘之内,他們的視野也只能停留在魚塘之内,一直沒有受到外在的水流衝擊,哪怕出面風高浪急,也不管,也管不了。 日子長了,魚塘内的魚因爲沒有外在威脅,慢慢變得反應遲鈍,哪怕有漁夫拿著魚叉漁網,也不懂閃躲,漁夫們便樂翻了,一槍一條,一網一大羅,百發百中。 一家公司,
    Thumbnail
    GM 最新商業模式:幫特斯拉修車,趕特斯拉電動車銷售方面或許不太順利,但這家百年車廠在另一個市場找到契機:電動車維修。 不過也不用太傷心,目前賣電動車的廠商,還沒有人打贏特斯拉【註】,打不敗怎麼辦,那我就加入他,這是GM新嗅到的契機,雖然一開始看到這個新聞我覺得蠻好笑的,第一次有財經訊息讓我笑出來。
    Thumbnail
    在Tesla努力賣車賺錢的同時,有不少人覺得他們最後還是會被收購。然而,Tesla的市值其實已經超過許多傳統車廠的總和,應該是他們買別人吧?如果要買的話,Tesla會考慮乾脆買下一家傳統車廠,來取得更強大的生產和銷售能量嗎?
    Thumbnail
    ​ 上面那隻是GM的奇怪吉祥物之一 看起來像企鵝跟紅面薑母鴨的混種XD 但是牠有肚臍ㄟ!!! 所以其實是胎生的??