今天聊聊由 Vadim Borisov[1]於2023年發表的文章,
《Language Models are Realistic Tabular Data Generators》[2]。
這篇文章的看點,是提出了GReaT 框架,實現使用「大語言模型 Large Language Model (LLM)」來產生「表格數據 Tabular Data」。
GReaT是Generation of Realistic Tabular data的縮寫,其實就是「產生幾近真實的表格數據」的意思。
GReaT的一大優點,是能夠做「條件生成 Conditional Generation」。
你可以給定一組特徵的子集,那GReaT幫你補剩下沒有指定了欄位。
從統計科學的角度看,這是一種很吸引人的「缺失值補齊 Missing Value Imputation」[3] 的方法!
而如果我們從「生成式建模 Generative Modeling」的角度來看,在生成表格數據時,我們要問自己:
我如何將表格的「一列 Row」轉為生成模型需要的向量表達?
在文章的3.1節,Vadim介紹了一種稱為「文本編碼器 Textual Encoder」的編碼方式,將「表格」轉為「文本」。
而這個文本編碼器也很簡單,稱為「主語-謂語-賓語轉換 subject-predicate-object transformation」。
舉一個例子。
在表格上,我們可以有一列,
紀錄著「年紀59,教育碩士,性別男性」,
那其實你現在“唸出這一列”所用的語言,
就是GReaT使用的文本編碼,
就是所謂的主語-謂語-賓語轉換 。
而了解GReaT的文本編碼方式後,
你可以多注意到一點,就是「表格要先唸哪個欄位,其實沒有規定」。
你可以把上面那個例子唸成「教育碩士,年紀59,性別男性」,
也可以唸成「性別男性,年紀59,教育碩士」。
而由於語言模型是使用「自迴歸建模 Auto-Regressive Modeling」[4],
打亂文本編碼時欄位的順序,
更有助於語言模型理解這些欄位之間是獨立的,
也就賦予了語言模型有能夠做「條件生成 Conditional Generation」的能力。
Reference
[1] https://uni-tuebingen.de/en/fakultaeten/mathematisch-naturwissenschaftliche-fakultaet/fachbereiche/informatik/lehrstuehle/data-science-analytics/team/dr-vadim-borisov/
[2] https://arxiv.org/abs/2210.06280
[3] https://en.wikipedia.org/wiki/Imputation_(statistics)
[4] https://aws.amazon.com/tw/what-is/autoregressive-models/