2024-06-29|閱讀時間 ‧ 約 24 分鐘

GM 001|語言模型真的能生成真實的表格數據嗎?

    今天聊聊由 Vadim Borisov[1]於2023年發表的文章,


    《Language Models are Realistic Tabular Data Generators》[2]。


    這篇文章的看點,是提出了GReaT 框架,實現使用「大語言模型 Large Language Model (LLM)」來產生「表格數據 Tabular Data」。


    GReaT是Generation of Realistic Tabular data的縮寫,其實就是「產生幾近真實的表格數據」的意思。


    GReaT的一大優點,是能夠做「條件生成 Conditional Generation」。


    你可以給定一組特徵的子集,那GReaT幫你補剩下沒有指定了欄位。


    從統計科學的角度看,這是一種很吸引人的「缺失值補齊 Missing Value Imputation」[3] 的方法!


    而如果我們從「生成式建模 Generative Modeling」的角度來看,在生成表格數據時,我們要問自己:


    我如何將表格的「一列 Row」轉為生成模型需要的向量表達?


    在文章的3.1節,Vadim介紹了一種稱為「文本編碼器 Textual Encoder」的編碼方式,將「表格」轉為「文本」。


    而這個文本編碼器也很簡單,稱為「主語-謂語-賓語轉換 subject-predicate-object transformation」。


    舉一個例子。


    在表格上,我們可以有一列,


    紀錄著「年紀59,教育碩士,性別男性」,


    那其實你現在“唸出這一列”所用的語言,


    就是GReaT使用的文本編碼,


    就是所謂的主語-謂語-賓語轉換 。


    而了解GReaT的文本編碼方式後,


    你可以多注意到一點,就是「表格要先唸哪個欄位,其實沒有規定」。


    你可以把上面那個例子唸成「教育碩士,年紀59,性別男性」,


    也可以唸成「性別男性,年紀59,教育碩士」。


    而由於語言模型是使用「自迴歸建模 Auto-Regressive Modeling」[4],


    打亂文本編碼時欄位的順序,


    更有助於語言模型理解這些欄位之間是獨立的,


    也就賦予了語言模型有能夠做「條件生成 Conditional Generation」的能力。


    Reference

    [1] https://uni-tuebingen.de/en/fakultaeten/mathematisch-naturwissenschaftliche-fakultaet/fachbereiche/informatik/lehrstuehle/data-science-analytics/team/dr-vadim-borisov/

    [2] https://arxiv.org/abs/2210.06280

    [3] https://en.wikipedia.org/wiki/Imputation_(statistics)

    [4] https://aws.amazon.com/tw/what-is/autoregressive-models/

    分享至
    成為作者繼續創作的動力吧!
    © 2024 vocus All rights reserved.