GM 002|如何使用GReaT class進行表格數據生成?

更新於 發佈於 閱讀時間約 4 分鐘

今天我們繼續聊聊由 Vadim Borisov[1]於2023年發表的文章,


《Language Models are Realistic Tabular Data Generators》[2]。


今天我將帶你看看GReaT作為「物件導向編程 Objective-Oriented Programming」的「類別 Class」會是如何。


首先,GReaT class 會處理整個表格數據生成的工作流[3]。


GReaT class 的主要功能,就是對大語言模型,根據「表格數據 Tabular Data」進行「微調 Fine-Tune」,以利產生「合成表格數據 Synthetic Tabular Data」。


而這個類別具體有11個「屬性 Attributes」:


01 `llm (str)` : 從HuggingFace[4]上拿「預訓練大語言模型 Pretrained Large Language Model」的「檢查點 Checkpoint」[5]


02 `tokenizer (AutoTokenizer)`:「符元器 Tokenizer」,可以從大語言模型檢查點自動下載


03 `model (AutoModelForCausalLM)`:大語言模型,也是從大語言模型檢查點自動下載


04 `experiment_dir (str)`:儲存訓練檢查點的字典


05 `epochs (int)` : 要微調模型使用的訓練週期次數


06 `batch_size (int)` : 微調模型使用的數據batch大小


07 `train_hyperparameters (dict)` :HuggingFaceLibrary使用,要增加到 TrainingArguments的額外超參數[6]


08 `columns (list)`:表格數據集所有特徵/欄位的列表


09 `num_cols (list)`:表格數據集所有數值特徵/欄位的列表


10 `conditional_col (str)`:在生成表格數據時,可以作為條件的特徵/欄位


11 `conditional_col_dist (dict | list)`:透過`conditional_col` 指定的特徵/欄位的分佈


可以看到01-07的屬性,都是來自大語言模型的。


而08-11的屬性,則是為表格數據所設定。


而對表格數據做「生成式建模 Generative Modeling」標準的挑戰,就是要區分「離散變數 Discrete Variable」與「連續變數 Continuous Variable」。


在我的經驗上,語言模型擅長生成離散變數,但連續變數的分佈語言模型就沒辦法給出很好的結果。


或許這是因為連續變數是一種數學統計模型,而用語言的法則,是很難抓住其精髓的。


很有意思,持續去研究。


Reference

[1] https://uni-tuebingen.de/en/fakultaeten/mathematisch-naturwissenschaftliche-fakultaet/fachbereiche/informatik/lehrstuehle/data-science-analytics/team/dr-vadim-borisov/

[2] https://arxiv.org/abs/2210.06280

[3] https://github.com/kathrinse/be_great/blob/main/be_great/great.py

[4] https://huggingface.co/

[5] https://huggingface.co/docs/accelerate/usage_guides/checkpoint

[6] https://huggingface.co/docs/transformers/main/en/main_classes/trainer#transformers.TrainingArguments

avatar-img
534會員
1.8K內容數
Outline as Content
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
王啟樺的沙龍 的其他內容
「AI 代理人 AI Agent」是一個充滿魅力的概念。 我第一次接觸到Agent這個字, 是博士時期研究Bandit Algorithms [1], 在「強化學習 Reinforcement Learning」的literature中看到的。 在當初做Bandit Algo
今天學習Git的第二步: 基礎快照 Basic Snapshotting [1] 。 之前提到,快照在Git的意思, 是Git 會紀錄 Git 儲存庫裡面每一個檔案在提交時刻的狀態。 可以說,Git 本身就是製作與組織這些「快照」的最強工具。 透過使用快照,你可以記錄你
「“發想法”,用文字來想就是"Idea",但更適合的英文字是“Abduction"。」 「Induction是歸納法,Deduction是演繹法,而Abduction是發想法。」 這2句話,節錄於日本作者川喜田二郎[1]的著書, 《発想法―創造性開発のために 》[2]的第4頁。
「權變 (Contingency),簡單說是見機行事,要懂得因時因地,有所區分地解決問題。」 「權變領導,就是要在領導行為,追隨者特徵,環境,之間找到一個平衡點,以達到有效影響他人,完成組織任務的目的。」 這兩句話節錄自寧向東的清華管理學課的內容[1],引發我的思考。 Contin
【品牌定位的STP分析在學術研究中的應用】 ── 1. Segmentation 市場細分 2. Targeting 目標市場選擇 3. Positioning 市場定位 在行銷課堂上學到的品牌定位的STP分析,不僅適用於商業領域,也可以巧妙地應用於學術研究和寫作中。尤其是在機器學習這樣一個多學
基礎模型 (Foundation Model)的研究真的日新月異, 一兩個禮拜就都有新的工作出來, 看都看不完。 現在的學術工作,就跟快時尚一樣, 每週一三五都會有新品上市。 但人的精力有限, 不可能每一篇論文都能仔細看, 如此,選擇哪些論文仔細讀,就非常重
「AI 代理人 AI Agent」是一個充滿魅力的概念。 我第一次接觸到Agent這個字, 是博士時期研究Bandit Algorithms [1], 在「強化學習 Reinforcement Learning」的literature中看到的。 在當初做Bandit Algo
今天學習Git的第二步: 基礎快照 Basic Snapshotting [1] 。 之前提到,快照在Git的意思, 是Git 會紀錄 Git 儲存庫裡面每一個檔案在提交時刻的狀態。 可以說,Git 本身就是製作與組織這些「快照」的最強工具。 透過使用快照,你可以記錄你
「“發想法”,用文字來想就是"Idea",但更適合的英文字是“Abduction"。」 「Induction是歸納法,Deduction是演繹法,而Abduction是發想法。」 這2句話,節錄於日本作者川喜田二郎[1]的著書, 《発想法―創造性開発のために 》[2]的第4頁。
「權變 (Contingency),簡單說是見機行事,要懂得因時因地,有所區分地解決問題。」 「權變領導,就是要在領導行為,追隨者特徵,環境,之間找到一個平衡點,以達到有效影響他人,完成組織任務的目的。」 這兩句話節錄自寧向東的清華管理學課的內容[1],引發我的思考。 Contin
【品牌定位的STP分析在學術研究中的應用】 ── 1. Segmentation 市場細分 2. Targeting 目標市場選擇 3. Positioning 市場定位 在行銷課堂上學到的品牌定位的STP分析,不僅適用於商業領域,也可以巧妙地應用於學術研究和寫作中。尤其是在機器學習這樣一個多學
基礎模型 (Foundation Model)的研究真的日新月異, 一兩個禮拜就都有新的工作出來, 看都看不完。 現在的學術工作,就跟快時尚一樣, 每週一三五都會有新品上市。 但人的精力有限, 不可能每一篇論文都能仔細看, 如此,選擇哪些論文仔細讀,就非常重
你可能也想看
Google News 追蹤
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型,並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing,現
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 113 中安裝了 Google Trax,現在來建立 Transformer 模型: model = trax,models.
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
這篇內容,將會講解什麼是資料型態,以及與資料型態相關的知識。包括資料型態的簡介、實數、布林值、 字串、陣列。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續AI說書 - 從0開始 - 22解釋Foundation Model與Engines意涵後,我們來試用看看ChatGPT。 嘗試問以下問題:Provide a
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
這邊統整了所有過去發表過關於 QUERY 函式的教學分享,希望可以方便你按照順序閱讀和練習。 QUERY 可以用來查詢、篩選、聚集、排序資料,還可以做張簡易的資料透視表,是我在 Google 試算表上做數據分析、製作報告、製作儀表板時最常用的函式之一,既方便又好用,誠心推薦!
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型,並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing,現
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 113 中安裝了 Google Trax,現在來建立 Transformer 模型: model = trax,models.
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
這篇內容,將會講解什麼是資料型態,以及與資料型態相關的知識。包括資料型態的簡介、實數、布林值、 字串、陣列。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續AI說書 - 從0開始 - 22解釋Foundation Model與Engines意涵後,我們來試用看看ChatGPT。 嘗試問以下問題:Provide a
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
這邊統整了所有過去發表過關於 QUERY 函式的教學分享,希望可以方便你按照順序閱讀和練習。 QUERY 可以用來查詢、篩選、聚集、排序資料,還可以做張簡易的資料透視表,是我在 Google 試算表上做數據分析、製作報告、製作儀表板時最常用的函式之一,既方便又好用,誠心推薦!