GM 002｜如何使用GReaT class進行表格數據生成？

王啟樺

2024/06/30 更新2024/06/30 發佈閱讀 4 分鐘

今天我們繼續聊聊由 Vadim Borisov[1]於2023年發表的文章，

《Language Models are Realistic Tabular Data Generators》[2]。

今天我將帶你看看GReaT作為「物件導向編程 Objective-Oriented Programming」的「類別 Class」會是如何。

首先，GReaT class 會處理整個表格數據生成的工作流[3]。

GReaT class 的主要功能，就是對大語言模型，根據「表格數據 Tabular Data」進行「微調 Fine-Tune」，以利產生「合成表格數據 Synthetic Tabular Data」。

而這個類別具體有11個「屬性 Attributes」：

01 `llm (str)` : 從HuggingFace[4]上拿「預訓練大語言模型 Pretrained Large Language Model」的「檢查點 Checkpoint」[5]

02 `tokenizer (AutoTokenizer)`：「符元器 Tokenizer」，可以從大語言模型檢查點自動下載

03 `model (AutoModelForCausalLM)`：大語言模型，也是從大語言模型檢查點自動下載

04 `experiment_dir (str)`：儲存訓練檢查點的字典

05 `epochs (int)` : 要微調模型使用的訓練週期次數

06 `batch_size (int)` : 微調模型使用的數據batch大小

07 `train_hyperparameters (dict)` ：HuggingFaceLibrary使用，要增加到 TrainingArguments的額外超參數[6]

08 `columns (list)`：表格數據集所有特徵/欄位的列表

09 `num_cols (list)`：表格數據集所有數值特徵/欄位的列表

10 `conditional_col (str)`：在生成表格數據時，可以作為條件的特徵/欄位

11 `conditional_col_dist (dict | list)`：透過`conditional_col` 指定的特徵/欄位的分佈

可以看到01-07的屬性，都是來自大語言模型的。

而08-11的屬性，則是為表格數據所設定。

而對表格數據做「生成式建模 Generative Modeling」標準的挑戰，就是要區分「離散變數 Discrete Variable」與「連續變數 Continuous Variable」。

在我的經驗上，語言模型擅長生成離散變數，但連續變數的分佈語言模型就沒辦法給出很好的結果。

或許這是因為連續變數是一種數學統計模型，而用語言的法則，是很難抓住其精髓的。

很有意思，持續去研究。

Reference

[1] https://uni-tuebingen.de/en/fakultaeten/mathematisch-naturwissenschaftliche-fakultaet/fachbereiche/informatik/lehrstuehle/data-science-analytics/team/dr-vadim-borisov/

[2] https://arxiv.org/abs/2210.06280

[3] https://github.com/kathrinse/be_great/blob/main/be_great/great.py

[4] https://huggingface.co/

[5] https://huggingface.co/docs/accelerate/usage_guides/checkpoint

[6] https://huggingface.co/docs/transformers/main/en/main_classes/trainer#transformers.TrainingArguments

留言

王啟樺的沙龍

648會員

2.0K內容數

Outline as Content

王啟樺的沙龍的其他內容

2025/03/29

【碩博士生必學閱讀思維：從 Passive Consumption 到 Active Reading】

Passive Consumption（被動接收） vs. Active Reading（主動閱讀）｜真正讓你進化的閱讀差在這裡碩博士生每天都在讀論文、讀報告、讀教材，但大多數人其實只是「看過了」，不是「讀進去了」。讀很多卻吸收很少，記不起重點、寫不出心得，不是你不夠努力，而是你還停

2025/03/29

【碩博士生必學閱讀思維：從 Passive Consumption 到 Active Reading】

2025/03/27

【碩博士生必學：用 Obsidian 打造從閱讀到寫作的知識工作流，解決資料亂、想法卡、寫不出的問題】

2025/03/27

【碩博士生必學：用 Obsidian 打造從閱讀到寫作的知識工作流，解決資料亂、想法卡、寫不出的問題】

2025/01/29

中國 AI 這麼猛？美國的領先地位真的岌岌可危嗎？

4 個關鍵洞見 + 讓你看懂中美 AI 競爭 + 若不讀，你就可能錯失整個時代的最大機遇 AI 的發展速度，真的快到讓人心驚。我們常常以為美國在 AI 領域穩居頂尖，可現在中國的 AI 創新力好像開始迎頭趕上，這背後的原因是什麼？若我們沒有跟上這波 AI 變革，就可能被遠遠拋在後面，錯失技

2025/01/29

中國 AI 這麼猛？美國的領先地位真的岌岌可危嗎？

你可能也想看

高中數學主題練習—根式化簡

2024/06/25

高中數學主題練習—根式化簡

2024/06/25

這邊統整了所有過去發表過關於 QUERY 函式的教學分享，希望可以方便你按照順序閱讀和練習。 QUERY 可以用來查詢、篩選、聚集、排序資料，還可以做張簡易的資料透視表，是我在 Google 試算表上做數據分析、製作報告、製作儀表板時最常用的函式之一，既方便又好用，誠心推薦！

2024/01/30

2024/01/30

無痛入手 C++：基礎教學2 - 資料型態和變數

#程式#入門#教學

2024/04/21

鏟薯員的窩

無痛入手 C++：基礎教學2 - 資料型態和變數

2024/04/21

高中數學主題練習—對數方程式

2024/06/26

高中數學主題練習—對數方程式

2024/06/26

【圖論Graph】Part1：初探圖形與圖形演算法之應用

圖形演算法在資料處理上扮演重要角色。本文介紹圖形的歷史、定義、技術用途，以及為什麼我們要關心圖形演算法。文末還提及圖形演算法在機器學習領域的應用。下次將介紹更詳細的圖形演算法內容。

#學習#金融市場#圖形

2024/02/21

Karen的沙龍

【圖論Graph】Part1：初探圖形與圖形演算法之應用

#學習#金融市場#圖形

2024/02/21

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11