GM 002|如何使用GReaT class進行表格數據生成?

更新於 2024/06/30閱讀時間約 4 分鐘

今天我們繼續聊聊由 Vadim Borisov[1]於2023年發表的文章,


《Language Models are Realistic Tabular Data Generators》[2]。


今天我將帶你看看GReaT作為「物件導向編程 Objective-Oriented Programming」的「類別 Class」會是如何。


首先,GReaT class 會處理整個表格數據生成的工作流[3]。


GReaT class 的主要功能,就是對大語言模型,根據「表格數據 Tabular Data」進行「微調 Fine-Tune」,以利產生「合成表格數據 Synthetic Tabular Data」。


而這個類別具體有11個「屬性 Attributes」:


01 `llm (str)` : 從HuggingFace[4]上拿「預訓練大語言模型 Pretrained Large Language Model」的「檢查點 Checkpoint」[5]


02 `tokenizer (AutoTokenizer)`:「符元器 Tokenizer」,可以從大語言模型檢查點自動下載


03 `model (AutoModelForCausalLM)`:大語言模型,也是從大語言模型檢查點自動下載


04 `experiment_dir (str)`:儲存訓練檢查點的字典


05 `epochs (int)` : 要微調模型使用的訓練週期次數


06 `batch_size (int)` : 微調模型使用的數據batch大小


07 `train_hyperparameters (dict)` :HuggingFaceLibrary使用,要增加到 TrainingArguments的額外超參數[6]


08 `columns (list)`:表格數據集所有特徵/欄位的列表


09 `num_cols (list)`:表格數據集所有數值特徵/欄位的列表


10 `conditional_col (str)`:在生成表格數據時,可以作為條件的特徵/欄位


11 `conditional_col_dist (dict | list)`:透過`conditional_col` 指定的特徵/欄位的分佈


可以看到01-07的屬性,都是來自大語言模型的。


而08-11的屬性,則是為表格數據所設定。


而對表格數據做「生成式建模 Generative Modeling」標準的挑戰,就是要區分「離散變數 Discrete Variable」與「連續變數 Continuous Variable」。


在我的經驗上,語言模型擅長生成離散變數,但連續變數的分佈語言模型就沒辦法給出很好的結果。


或許這是因為連續變數是一種數學統計模型,而用語言的法則,是很難抓住其精髓的。


很有意思,持續去研究。


Reference

[1] https://uni-tuebingen.de/en/fakultaeten/mathematisch-naturwissenschaftliche-fakultaet/fachbereiche/informatik/lehrstuehle/data-science-analytics/team/dr-vadim-borisov/

[2] https://arxiv.org/abs/2210.06280

[3] https://github.com/kathrinse/be_great/blob/main/be_great/great.py

[4] https://huggingface.co/

[5] https://huggingface.co/docs/accelerate/usage_guides/checkpoint

[6] https://huggingface.co/docs/transformers/main/en/main_classes/trainer#transformers.TrainingArguments

avatar-img
524會員
1.8K內容數
Outline as Content
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
王啟樺的沙龍 的其他內容
「AI 代理人 AI Agent」是一個充滿魅力的概念。 我第一次接觸到Agent這個字, 是博士時期研究Bandit Algorithms [1], 在「強化學習 Reinforcement Learning」的literature中看到的。 在當初做Bandit Algo
今天學習Git的第二步: 基礎快照 Basic Snapshotting [1] 。 之前提到,快照在Git的意思, 是Git 會紀錄 Git 儲存庫裡面每一個檔案在提交時刻的狀態。 可以說,Git 本身就是製作與組織這些「快照」的最強工具。 透過使用快照,你可以記錄你
「“發想法”,用文字來想就是"Idea",但更適合的英文字是“Abduction"。」 「Induction是歸納法,Deduction是演繹法,而Abduction是發想法。」 這2句話,節錄於日本作者川喜田二郎[1]的著書, 《発想法―創造性開発のために 》[2]的第4頁。
「權變 (Contingency),簡單說是見機行事,要懂得因時因地,有所區分地解決問題。」 「權變領導,就是要在領導行為,追隨者特徵,環境,之間找到一個平衡點,以達到有效影響他人,完成組織任務的目的。」 這兩句話節錄自寧向東的清華管理學課的內容[1],引發我的思考。 Contin
【品牌定位的STP分析在學術研究中的應用】 ── 1. Segmentation 市場細分 2. Targeting 目標市場選擇 3. Positioning 市場定位 在行銷課堂上學到的品牌定位的STP分析,不僅適用於商業領域,也可以巧妙地應用於學術研究和寫作中。尤其是在機器學習這樣一個多學
基礎模型 (Foundation Model)的研究真的日新月異, 一兩個禮拜就都有新的工作出來, 看都看不完。 現在的學術工作,就跟快時尚一樣, 每週一三五都會有新品上市。 但人的精力有限, 不可能每一篇論文都能仔細看, 如此,選擇哪些論文仔細讀,就非常重
「AI 代理人 AI Agent」是一個充滿魅力的概念。 我第一次接觸到Agent這個字, 是博士時期研究Bandit Algorithms [1], 在「強化學習 Reinforcement Learning」的literature中看到的。 在當初做Bandit Algo
今天學習Git的第二步: 基礎快照 Basic Snapshotting [1] 。 之前提到,快照在Git的意思, 是Git 會紀錄 Git 儲存庫裡面每一個檔案在提交時刻的狀態。 可以說,Git 本身就是製作與組織這些「快照」的最強工具。 透過使用快照,你可以記錄你
「“發想法”,用文字來想就是"Idea",但更適合的英文字是“Abduction"。」 「Induction是歸納法,Deduction是演繹法,而Abduction是發想法。」 這2句話,節錄於日本作者川喜田二郎[1]的著書, 《発想法―創造性開発のために 》[2]的第4頁。
「權變 (Contingency),簡單說是見機行事,要懂得因時因地,有所區分地解決問題。」 「權變領導,就是要在領導行為,追隨者特徵,環境,之間找到一個平衡點,以達到有效影響他人,完成組織任務的目的。」 這兩句話節錄自寧向東的清華管理學課的內容[1],引發我的思考。 Contin
【品牌定位的STP分析在學術研究中的應用】 ── 1. Segmentation 市場細分 2. Targeting 目標市場選擇 3. Positioning 市場定位 在行銷課堂上學到的品牌定位的STP分析,不僅適用於商業領域,也可以巧妙地應用於學術研究和寫作中。尤其是在機器學習這樣一個多學
基礎模型 (Foundation Model)的研究真的日新月異, 一兩個禮拜就都有新的工作出來, 看都看不完。 現在的學術工作,就跟快時尚一樣, 每週一三五都會有新品上市。 但人的精力有限, 不可能每一篇論文都能仔細看, 如此,選擇哪些論文仔細讀,就非常重
你可能也想看
Google News 追蹤
Thumbnail
本文探討了複利效應的重要性,並藉由巴菲特的投資理念,說明如何選擇穩定產生正報酬的資產及長期持有的核心理念。透過定期定額的投資方式,不僅能減少情緒影響,還能持續參與全球股市的發展。此外,文中介紹了使用國泰 Cube App 的便利性及低手續費,幫助投資者簡化投資流程,達成長期穩定增長的財務目標。
Thumbnail
2019年時有一場很特別的TRPG推廣活動,名為「龍與地下城 5 版 GM 培訓課程」。 這活動特別地方在於,它是以培養龍與地下城系統的「DM」為目標,而不是「玩家」。對我來說,這是我實際開始接觸TRPG的起點。 這篇文章是想針對一些網路流言做釐清,並將幾年前的依稀記憶記錄下來…
Thumbnail
#2024GM春 #天國與地獄 雖然這款不禁讓我連想到2023年的「天使與惡魔」但它不是吃墩遊戲,而是大老二遊戲。看簡介有導入最近討論度很高的「接替手牌」機制,感覺有點意思,預備入手 #Bartendoubt (暫譯:吹牛調酒大師) 真正的調酒大師喝一口就知道比例,但是,你確定他說的是真的嗎
Polymetal International plc: Results of GM Polymetal International plc Results of GM Polymetal International plc (the “Company”) announces that at
Thumbnail
前陣子在滑噗浪河道時,看到了一波跟風潮提問了:分享一下對你而言,GM最重要的一項特質是什麼? 起初看到這個問題時,我猶豫了很久。除了選擇障礙的原因外,好像有其他更深的理由讓我遲遲無法下決定。 後來細思後,那個問題變成了:「面對TRPG時,GM最重要的特質是什麼?」
一個魚塘内的魚,從出世開始,便生活在這個魚塘之内,他們的視野也只能停留在魚塘之内,一直沒有受到外在的水流衝擊,哪怕出面風高浪急,也不管,也管不了。 日子長了,魚塘内的魚因爲沒有外在威脅,慢慢變得反應遲鈍,哪怕有漁夫拿著魚叉漁網,也不懂閃躲,漁夫們便樂翻了,一槍一條,一網一大羅,百發百中。 一家公司,
Thumbnail
GM 最新商業模式:幫特斯拉修車,趕特斯拉電動車銷售方面或許不太順利,但這家百年車廠在另一個市場找到契機:電動車維修。 不過也不用太傷心,目前賣電動車的廠商,還沒有人打贏特斯拉【註】,打不敗怎麼辦,那我就加入他,這是GM新嗅到的契機,雖然一開始看到這個新聞我覺得蠻好笑的,第一次有財經訊息讓我笑出來。
Thumbnail
在Tesla努力賣車賺錢的同時,有不少人覺得他們最後還是會被收購。然而,Tesla的市值其實已經超過許多傳統車廠的總和,應該是他們買別人吧?如果要買的話,Tesla會考慮乾脆買下一家傳統車廠,來取得更強大的生產和銷售能量嗎?
Thumbnail
​ 上面那隻是GM的奇怪吉祥物之一 看起來像企鵝跟紅面薑母鴨的混種XD 但是牠有肚臍ㄟ!!! 所以其實是胎生的??
Thumbnail
本文探討了複利效應的重要性,並藉由巴菲特的投資理念,說明如何選擇穩定產生正報酬的資產及長期持有的核心理念。透過定期定額的投資方式,不僅能減少情緒影響,還能持續參與全球股市的發展。此外,文中介紹了使用國泰 Cube App 的便利性及低手續費,幫助投資者簡化投資流程,達成長期穩定增長的財務目標。
Thumbnail
2019年時有一場很特別的TRPG推廣活動,名為「龍與地下城 5 版 GM 培訓課程」。 這活動特別地方在於,它是以培養龍與地下城系統的「DM」為目標,而不是「玩家」。對我來說,這是我實際開始接觸TRPG的起點。 這篇文章是想針對一些網路流言做釐清,並將幾年前的依稀記憶記錄下來…
Thumbnail
#2024GM春 #天國與地獄 雖然這款不禁讓我連想到2023年的「天使與惡魔」但它不是吃墩遊戲,而是大老二遊戲。看簡介有導入最近討論度很高的「接替手牌」機制,感覺有點意思,預備入手 #Bartendoubt (暫譯:吹牛調酒大師) 真正的調酒大師喝一口就知道比例,但是,你確定他說的是真的嗎
Polymetal International plc: Results of GM Polymetal International plc Results of GM Polymetal International plc (the “Company”) announces that at
Thumbnail
前陣子在滑噗浪河道時,看到了一波跟風潮提問了:分享一下對你而言,GM最重要的一項特質是什麼? 起初看到這個問題時,我猶豫了很久。除了選擇障礙的原因外,好像有其他更深的理由讓我遲遲無法下決定。 後來細思後,那個問題變成了:「面對TRPG時,GM最重要的特質是什麼?」
一個魚塘内的魚,從出世開始,便生活在這個魚塘之内,他們的視野也只能停留在魚塘之内,一直沒有受到外在的水流衝擊,哪怕出面風高浪急,也不管,也管不了。 日子長了,魚塘内的魚因爲沒有外在威脅,慢慢變得反應遲鈍,哪怕有漁夫拿著魚叉漁網,也不懂閃躲,漁夫們便樂翻了,一槍一條,一網一大羅,百發百中。 一家公司,
Thumbnail
GM 最新商業模式:幫特斯拉修車,趕特斯拉電動車銷售方面或許不太順利,但這家百年車廠在另一個市場找到契機:電動車維修。 不過也不用太傷心,目前賣電動車的廠商,還沒有人打贏特斯拉【註】,打不敗怎麼辦,那我就加入他,這是GM新嗅到的契機,雖然一開始看到這個新聞我覺得蠻好笑的,第一次有財經訊息讓我笑出來。
Thumbnail
在Tesla努力賣車賺錢的同時,有不少人覺得他們最後還是會被收購。然而,Tesla的市值其實已經超過許多傳統車廠的總和,應該是他們買別人吧?如果要買的話,Tesla會考慮乾脆買下一家傳統車廠,來取得更強大的生產和銷售能量嗎?
Thumbnail
​ 上面那隻是GM的奇怪吉祥物之一 看起來像企鵝跟紅面薑母鴨的混種XD 但是牠有肚臍ㄟ!!! 所以其實是胎生的??