GM 001｜語言模型真的能生成真實的表格數據嗎？

王啟樺

更新於 2024/06/29發佈於 2024/06/29閱讀時間約 3 分鐘

今天聊聊由 Vadim Borisov[1]於2023年發表的文章，

《Language Models are Realistic Tabular Data Generators》[2]。

這篇文章的看點，是提出了GReaT 框架，實現使用「大語言模型 Large Language Model (LLM)」來產生「表格數據 Tabular Data」。

GReaT是Generation of Realistic Tabular data的縮寫，其實就是「產生幾近真實的表格數據」的意思。

GReaT的一大優點，是能夠做「條件生成 Conditional Generation」。

你可以給定一組特徵的子集，那GReaT幫你補剩下沒有指定了欄位。

從統計科學的角度看，這是一種很吸引人的「缺失值補齊 Missing Value Imputation」[3] 的方法！

而如果我們從「生成式建模 Generative Modeling」的角度來看，在生成表格數據時，我們要問自己：

我如何將表格的「一列 Row」轉為生成模型需要的向量表達？

在文章的3.1節，Vadim介紹了一種稱為「文本編碼器 Textual Encoder」的編碼方式，將「表格」轉為「文本」。

而這個文本編碼器也很簡單，稱為「主語-謂語-賓語轉換 subject-predicate-object transformation」。

舉一個例子。

在表格上，我們可以有一列，

紀錄著「年紀59，教育碩士，性別男性」，

那其實你現在“唸出這一列”所用的語言，

就是GReaT使用的文本編碼，

就是所謂的主語-謂語-賓語轉換。

而了解GReaT的文本編碼方式後，

你可以多注意到一點，就是「表格要先唸哪個欄位，其實沒有規定」。

你可以把上面那個例子唸成「教育碩士，年紀59，性別男性」，

也可以唸成「性別男性，年紀59，教育碩士」。

而由於語言模型是使用「自迴歸建模 Auto-Regressive Modeling」[4]，

打亂文本編碼時欄位的順序，

更有助於語言模型理解這些欄位之間是獨立的，

也就賦予了語言模型有能夠做「條件生成 Conditional Generation」的能力。

Reference

[1] https://uni-tuebingen.de/en/fakultaeten/mathematisch-naturwissenschaftliche-fakultaet/fachbereiche/informatik/lehrstuehle/data-science-analytics/team/dr-vadim-borisov/

[2] https://arxiv.org/abs/2210.06280

[3] https://en.wikipedia.org/wiki/Imputation_(statistics)

[4] https://aws.amazon.com/tw/what-is/autoregressive-models/

王啟樺的沙龍

553會員

1.8K內容數

Outline as Content

留言

留言分享你的想法！

王啟樺的沙龍的其他內容

【讀書最應該問的，是自己改變了嗎？3個啟示】

無論你是熱愛閱讀的書迷，還是渴望通過讀書獲得成長的人，這篇文章都適合你。本文將分享3個啟示，幫助你從閱讀中真正獲得改變。讓我們一同探索這些啟示，改變我們的閱讀方式吧！ ▋啟示1 - 聚焦內在轉變很多帳號每天拆解各種書籍，提供簡短的

093｜你是否正在浪費時間在選擇數位筆記工具上？

在2024年6月15日，我舉辦了兩場關於Obsidian閱讀的講座。當初總共收到了90個人的報名，而最後實際有參加的人也到了55個，比我預期會真的出現的人數還多。辦講座對我最大的好處，就是趁這個機會，把我的學術閱讀工作流工具化，標準化，

#Obsidian #學術寫作 #學術閱讀

U004｜我如何在UCLA Trustworthy AI Lab達到精益求精？

"The working relationship between experts and novices is a bundle of three Cs that human need to develop mastery: Challenge, Complexity, and Connectio

#UCLA #職涯 #精益求精

J008｜你能每天都採取行動嗎？

「為了達到目標，必要的三元素是： 01 太想達到而無法自拔的「目標」 02 有辦法實踐的「計畫」 03 能改變未來，現在就能做的「行動」。」這段話，節錄於日本作者吉武麻子[1]的著書，《目標や夢が達成できる　1年・1カ月・1週間・1日の時間術》[2]的第23頁。

#行動 #目標 #計畫

092｜你是否真的需要把整本書讀完？

2024年6月15日，清風不識字何必亂翻書的日子已經過了16年，從16歲的高中一年級到現在的32歲。雖然一年都會翻數百本書，但值到今天，我才發現一個能高效率讀書的方式。這個方式是：選7本書，整天就讀這7本，每一本只要遇到有啟發的段落，就摘錄出來

#寫作 #日更 #讀書筆記

【運用3個關鍵技巧，提升自由書寫的深度與廣度】

對於熱愛寫作的你來說，掌握有效的寫作技巧能夠讓你的文字更加引人入勝。如果你想要在自由書寫中產生更多有意義的內容，以下三個關鍵技巧將對你大有幫助。這些技巧不僅能夠幫你聚焦於特定話題，還能讓你的文章更加豐富與有說服力。話題編織觀點：選擇一組與你的主題相關的關鍵字，圍繞這些關鍵字展開你的寫作。這種方法