GM 002|如何使用GReaT class進行表格數據生成?

閱讀時間約 4 分鐘

今天我們繼續聊聊由 Vadim Borisov[1]於2023年發表的文章,


《Language Models are Realistic Tabular Data Generators》[2]。


今天我將帶你看看GReaT作為「物件導向編程 Objective-Oriented Programming」的「類別 Class」會是如何。


首先,GReaT class 會處理整個表格數據生成的工作流[3]。


GReaT class 的主要功能,就是對大語言模型,根據「表格數據 Tabular Data」進行「微調 Fine-Tune」,以利產生「合成表格數據 Synthetic Tabular Data」。


而這個類別具體有11個「屬性 Attributes」:


01 `llm (str)` : 從HuggingFace[4]上拿「預訓練大語言模型 Pretrained Large Language Model」的「檢查點 Checkpoint」[5]


02 `tokenizer (AutoTokenizer)`:「符元器 Tokenizer」,可以從大語言模型檢查點自動下載


03 `model (AutoModelForCausalLM)`:大語言模型,也是從大語言模型檢查點自動下載


04 `experiment_dir (str)`:儲存訓練檢查點的字典


05 `epochs (int)` : 要微調模型使用的訓練週期次數


06 `batch_size (int)` : 微調模型使用的數據batch大小


07 `train_hyperparameters (dict)` :HuggingFaceLibrary使用,要增加到 TrainingArguments的額外超參數[6]


08 `columns (list)`:表格數據集所有特徵/欄位的列表


09 `num_cols (list)`:表格數據集所有數值特徵/欄位的列表


10 `conditional_col (str)`:在生成表格數據時,可以作為條件的特徵/欄位


11 `conditional_col_dist (dict | list)`:透過`conditional_col` 指定的特徵/欄位的分佈


可以看到01-07的屬性,都是來自大語言模型的。


而08-11的屬性,則是為表格數據所設定。


而對表格數據做「生成式建模 Generative Modeling」標準的挑戰,就是要區分「離散變數 Discrete Variable」與「連續變數 Continuous Variable」。


在我的經驗上,語言模型擅長生成離散變數,但連續變數的分佈語言模型就沒辦法給出很好的結果。


或許這是因為連續變數是一種數學統計模型,而用語言的法則,是很難抓住其精髓的。


很有意思,持續去研究。


Reference

[1] https://uni-tuebingen.de/en/fakultaeten/mathematisch-naturwissenschaftliche-fakultaet/fachbereiche/informatik/lehrstuehle/data-science-analytics/team/dr-vadim-borisov/

[2] https://arxiv.org/abs/2210.06280

[3] https://github.com/kathrinse/be_great/blob/main/be_great/great.py

[4] https://huggingface.co/

[5] https://huggingface.co/docs/accelerate/usage_guides/checkpoint

[6] https://huggingface.co/docs/transformers/main/en/main_classes/trainer#transformers.TrainingArguments

412會員
1.5K內容數
Outline as Content
留言0
查看全部
發表第一個留言支持創作者!
王啟樺的沙龍 的其他內容
「AI 代理人 AI Agent」是一個充滿魅力的概念。 我第一次接觸到Agent這個字, 是博士時期研究Bandit Algorithms [1], 在「強化學習 Reinforcement Learning」的literature中看到的。 在當初做Bandit Algo
今天學習Git的第二步: 基礎快照 Basic Snapshotting [1] 。 之前提到,快照在Git的意思, 是Git 會紀錄 Git 儲存庫裡面每一個檔案在提交時刻的狀態。 可以說,Git 本身就是製作與組織這些「快照」的最強工具。 透過使用快照,你可以記錄你
「“發想法”,用文字來想就是"Idea",但更適合的英文字是“Abduction"。」 「Induction是歸納法,Deduction是演繹法,而Abduction是發想法。」 這2句話,節錄於日本作者川喜田二郎[1]的著書, 《発想法―創造性開発のために 》[2]的第4頁。
「權變 (Contingency),簡單說是見機行事,要懂得因時因地,有所區分地解決問題。」 「權變領導,就是要在領導行為,追隨者特徵,環境,之間找到一個平衡點,以達到有效影響他人,完成組織任務的目的。」 這兩句話節錄自寧向東的清華管理學課的內容[1],引發我的思考。 Contin
【品牌定位的STP分析在學術研究中的應用】 ── 1. Segmentation 市場細分 2. Targeting 目標市場選擇 3. Positioning 市場定位 在行銷課堂上學到的品牌定位的STP分析,不僅適用於商業領域,也可以巧妙地應用於學術研究和寫作中。尤其是在機器學習這樣一個多學
基礎模型 (Foundation Model)的研究真的日新月異, 一兩個禮拜就都有新的工作出來, 看都看不完。 現在的學術工作,就跟快時尚一樣, 每週一三五都會有新品上市。 但人的精力有限, 不可能每一篇論文都能仔細看, 如此,選擇哪些論文仔細讀,就非常重
「AI 代理人 AI Agent」是一個充滿魅力的概念。 我第一次接觸到Agent這個字, 是博士時期研究Bandit Algorithms [1], 在「強化學習 Reinforcement Learning」的literature中看到的。 在當初做Bandit Algo
今天學習Git的第二步: 基礎快照 Basic Snapshotting [1] 。 之前提到,快照在Git的意思, 是Git 會紀錄 Git 儲存庫裡面每一個檔案在提交時刻的狀態。 可以說,Git 本身就是製作與組織這些「快照」的最強工具。 透過使用快照,你可以記錄你
「“發想法”,用文字來想就是"Idea",但更適合的英文字是“Abduction"。」 「Induction是歸納法,Deduction是演繹法,而Abduction是發想法。」 這2句話,節錄於日本作者川喜田二郎[1]的著書, 《発想法―創造性開発のために 》[2]的第4頁。
「權變 (Contingency),簡單說是見機行事,要懂得因時因地,有所區分地解決問題。」 「權變領導,就是要在領導行為,追隨者特徵,環境,之間找到一個平衡點,以達到有效影響他人,完成組織任務的目的。」 這兩句話節錄自寧向東的清華管理學課的內容[1],引發我的思考。 Contin
【品牌定位的STP分析在學術研究中的應用】 ── 1. Segmentation 市場細分 2. Targeting 目標市場選擇 3. Positioning 市場定位 在行銷課堂上學到的品牌定位的STP分析,不僅適用於商業領域,也可以巧妙地應用於學術研究和寫作中。尤其是在機器學習這樣一個多學
基礎模型 (Foundation Model)的研究真的日新月異, 一兩個禮拜就都有新的工作出來, 看都看不完。 現在的學術工作,就跟快時尚一樣, 每週一三五都會有新品上市。 但人的精力有限, 不可能每一篇論文都能仔細看, 如此,選擇哪些論文仔細讀,就非常重
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
2019年時有一場很特別的TRPG推廣活動,名為「龍與地下城 5 版 GM 培訓課程」。 這活動特別地方在於,它是以培養龍與地下城系統的「DM」為目標,而不是「玩家」。對我來說,這是我實際開始接觸TRPG的起點。 這篇文章是想針對一些網路流言做釐清,並將幾年前的依稀記憶記錄下來…
Thumbnail
#2024GM春 #天國與地獄 雖然這款不禁讓我連想到2023年的「天使與惡魔」但它不是吃墩遊戲,而是大老二遊戲。看簡介有導入最近討論度很高的「接替手牌」機制,感覺有點意思,預備入手 #Bartendoubt (暫譯:吹牛調酒大師) 真正的調酒大師喝一口就知道比例,但是,你確定他說的是真的嗎
Polymetal International plc: Results of GM Polymetal International plc Results of GM Polymetal International plc (the “Company”) announces that at
Thumbnail
前陣子在滑噗浪河道時,看到了一波跟風潮提問了:分享一下對你而言,GM最重要的一項特質是什麼? 起初看到這個問題時,我猶豫了很久。除了選擇障礙的原因外,好像有其他更深的理由讓我遲遲無法下決定。 後來細思後,那個問題變成了:「面對TRPG時,GM最重要的特質是什麼?」
一個魚塘内的魚,從出世開始,便生活在這個魚塘之内,他們的視野也只能停留在魚塘之内,一直沒有受到外在的水流衝擊,哪怕出面風高浪急,也不管,也管不了。 日子長了,魚塘内的魚因爲沒有外在威脅,慢慢變得反應遲鈍,哪怕有漁夫拿著魚叉漁網,也不懂閃躲,漁夫們便樂翻了,一槍一條,一網一大羅,百發百中。 一家公司,
Thumbnail
GM 最新商業模式:幫特斯拉修車,趕特斯拉電動車銷售方面或許不太順利,但這家百年車廠在另一個市場找到契機:電動車維修。 不過也不用太傷心,目前賣電動車的廠商,還沒有人打贏特斯拉【註】,打不敗怎麼辦,那我就加入他,這是GM新嗅到的契機,雖然一開始看到這個新聞我覺得蠻好笑的,第一次有財經訊息讓我笑出來。
Thumbnail
在Tesla努力賣車賺錢的同時,有不少人覺得他們最後還是會被收購。然而,Tesla的市值其實已經超過許多傳統車廠的總和,應該是他們買別人吧?如果要買的話,Tesla會考慮乾脆買下一家傳統車廠,來取得更強大的生產和銷售能量嗎?
Thumbnail
​ 上面那隻是GM的奇怪吉祥物之一 看起來像企鵝跟紅面薑母鴨的混種XD 但是牠有肚臍ㄟ!!! 所以其實是胎生的??
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
2019年時有一場很特別的TRPG推廣活動,名為「龍與地下城 5 版 GM 培訓課程」。 這活動特別地方在於,它是以培養龍與地下城系統的「DM」為目標,而不是「玩家」。對我來說,這是我實際開始接觸TRPG的起點。 這篇文章是想針對一些網路流言做釐清,並將幾年前的依稀記憶記錄下來…
Thumbnail
#2024GM春 #天國與地獄 雖然這款不禁讓我連想到2023年的「天使與惡魔」但它不是吃墩遊戲,而是大老二遊戲。看簡介有導入最近討論度很高的「接替手牌」機制,感覺有點意思,預備入手 #Bartendoubt (暫譯:吹牛調酒大師) 真正的調酒大師喝一口就知道比例,但是,你確定他說的是真的嗎
Polymetal International plc: Results of GM Polymetal International plc Results of GM Polymetal International plc (the “Company”) announces that at
Thumbnail
前陣子在滑噗浪河道時,看到了一波跟風潮提問了:分享一下對你而言,GM最重要的一項特質是什麼? 起初看到這個問題時,我猶豫了很久。除了選擇障礙的原因外,好像有其他更深的理由讓我遲遲無法下決定。 後來細思後,那個問題變成了:「面對TRPG時,GM最重要的特質是什麼?」
一個魚塘内的魚,從出世開始,便生活在這個魚塘之内,他們的視野也只能停留在魚塘之内,一直沒有受到外在的水流衝擊,哪怕出面風高浪急,也不管,也管不了。 日子長了,魚塘内的魚因爲沒有外在威脅,慢慢變得反應遲鈍,哪怕有漁夫拿著魚叉漁網,也不懂閃躲,漁夫們便樂翻了,一槍一條,一網一大羅,百發百中。 一家公司,
Thumbnail
GM 最新商業模式:幫特斯拉修車,趕特斯拉電動車銷售方面或許不太順利,但這家百年車廠在另一個市場找到契機:電動車維修。 不過也不用太傷心,目前賣電動車的廠商,還沒有人打贏特斯拉【註】,打不敗怎麼辦,那我就加入他,這是GM新嗅到的契機,雖然一開始看到這個新聞我覺得蠻好笑的,第一次有財經訊息讓我笑出來。
Thumbnail
在Tesla努力賣車賺錢的同時,有不少人覺得他們最後還是會被收購。然而,Tesla的市值其實已經超過許多傳統車廠的總和,應該是他們買別人吧?如果要買的話,Tesla會考慮乾脆買下一家傳統車廠,來取得更強大的生產和銷售能量嗎?
Thumbnail
​ 上面那隻是GM的奇怪吉祥物之一 看起來像企鵝跟紅面薑母鴨的混種XD 但是牠有肚臍ㄟ!!! 所以其實是胎生的??