3個專家技巧來使用語言模型生成真實的表格數據：

更新於 2024/07/10發佈於 2024/07/10閱讀時間約 2 分鐘

1. 使用GReaT框架進行條件生成：

- Vadim Borisov在2023年發表的文章《Language Models are Realistic Tabular Data Generators》中提出了GReaT框架。GReaT代表Generation of Realistic Tabular data，專為生成真實的表格數據而設計。其一大優點是能夠進行條件生成，即給定一組特徵的子集，GReaT可以補全剩下的欄位。

2. 利用文本編碼器轉換表格數據：

- 在生成表格數據時，需將表格的「一列」轉換為生成模型所需的向量表達。Vadim在其文章的3.1節介紹了一種稱為「文本編碼器」的編碼方式，將表格轉為文本。這種編碼方式稱為「主語-謂語-賓語轉換」，例如紀錄「年紀59，教育碩士，性別男性」可以轉換為語言模型使用的文本。

3. 採用自迴歸建模進行生成：

- 由於語言模型使用「自迴歸建模」，打亂文本編碼時欄位的順序可以幫助語言模型理解這些欄位之間的獨立性，從而賦予語言模型進行條件生成的能力。例如，你可以將表格數據「教育碩士，年紀59，性別男性」轉換為「性別男性，年紀59，教育碩士」，以增強模型的生成效果。

你還有什麼其他的使用語言模型生成表格數據的技巧嗎？

請閱讀：

留言

留言分享你的想法！

王啟樺的沙龍

634會員

2.0K內容數

Outline as Content

王啟樺的沙龍的其他內容

2025/03/29

【碩博士生必學閱讀思維：從 Passive Consumption 到 Active Reading】

Passive Consumption（被動接收） vs. Active Reading（主動閱讀）｜真正讓你進化的閱讀差在這裡碩博士生每天都在讀論文、讀報告、讀教材，但大多數人其實只是「看過了」，不是「讀進去了」。讀很多卻吸收很少，記不起重點、寫不出心得，不是你不夠努力，而是你還停

2025/03/29

【碩博士生必學閱讀思維：從 Passive Consumption 到 Active Reading】

Passive Consumption（被動接收） vs. Active Reading（主動閱讀）｜真正讓你進化的閱讀差在這裡碩博士生每天都在讀論文、讀報告、讀教材，但大多數人其實只是「看過了」，不是「讀進去了」。讀很多卻吸收很少，記不起重點、寫不出心得，不是你不夠努力，而是你還停

2025/03/27

【碩博士生必學：用 Obsidian 打造從閱讀到寫作的知識工作流，解決資料亂、想法卡、寫不出的問題】

2025/03/27

【碩博士生必學：用 Obsidian 打造從閱讀到寫作的知識工作流，解決資料亂、想法卡、寫不出的問題】

2025/01/29

中國 AI 這麼猛？美國的領先地位真的岌岌可危嗎？

4 個關鍵洞見 + 讓你看懂中美 AI 競爭 + 若不讀，你就可能錯失整個時代的最大機遇 AI 的發展速度，真的快到讓人心驚。我們常常以為美國在 AI 領域穩居頂尖，可現在中國的 AI 創新力好像開始迎頭趕上，這背後的原因是什麼？若我們沒有跟上這波 AI 變革，就可能被遠遠拋在後面，錯失技

2025/01/29

中國 AI 這麼猛？美國的領先地位真的岌岌可危嗎？

4 個關鍵洞見 + 讓你看懂中美 AI 競爭 + 若不讀，你就可能錯失整個時代的最大機遇 AI 的發展速度，真的快到讓人心驚。我們常常以為美國在 AI 領域穩居頂尖，可現在中國的 AI 創新力好像開始迎頭趕上，這背後的原因是什麼？若我們沒有跟上這波 AI 變革，就可能被遠遠拋在後面，錯失技

你可能也想看

黛•Adele的生活隨筆

斜槓生活日常｜不受時間空間限制，分享喜歡的產品也能有被動收入｜蝦皮分潤計畫

常常被朋友問「哪裡買的？」嗎？透過蝦皮分潤計畫，把日常購物的分享多加一個步驟，就能轉換成現金回饋。門檻低、申請簡單，特別適合學生與上班族，讓零碎時間也能創造小確幸。

#蝦皮分潤計畫#蝦皮聯盟行銷#蝦皮副業

2025/09/06

黛•Adele的生活隨筆

斜槓生活日常｜不受時間空間限制，分享喜歡的產品也能有被動收入｜蝦皮分潤計畫

常常被朋友問「哪裡買的？」嗎？透過蝦皮分潤計畫，把日常購物的分享多加一個步驟，就能轉換成現金回饋。門檻低、申請簡單，特別適合學生與上班族，讓零碎時間也能創造小確幸。

#蝦皮分潤計畫#蝦皮聯盟行銷#蝦皮副業

2025/09/06

JayRay 的沙龍

【資料分析】資料分析起手式，理解數據並使用python找到資料間的關聯

在資料分析過程中，透過衡量變數之間的線性或非線性關係，能有效探索數據集，篩選出重要特徵，並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性，以及利用互資訊評估變數之間的依賴程度，幫助資料科學家在建模過程中選擇適當的變數，提升模型效果。

#數據#資訊#模型

2024/08/07

JayRay 的沙龍

【資料分析】資料分析起手式，理解數據並使用python找到資料間的關聯

在資料分析過程中，透過衡量變數之間的線性或非線性關係，能有效探索數據集，篩選出重要特徵，並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性，以及利用互資訊評估變數之間的依賴程度，幫助資料科學家在建模過程中選擇適當的變數，提升模型效果。

#數據#資訊#模型

2024/08/07

白熊的沙龍

【永續準則互通】GRI 與 TNFD 推出生物多樣性準則對應互通工具

在 2024 年 7 月底，GRI 和 TNFD 聯手推出了一份兩邊準則的對應互通工具，是一份有著5頁頁籤的複雜 Excel 表格。為了怕大家手忙腳亂，再另外附上了一份 15 頁的說明文件。

2024/08/04

白熊的沙龍

【永續準則互通】GRI 與 TNFD 推出生物多樣性準則對應互通工具

在 2024 年 7 月底，GRI 和 TNFD 聯手推出了一份兩邊準則的對應互通工具，是一份有著5頁頁籤的複雜 Excel 表格。為了怕大家手忙腳亂，再另外附上了一份 15 頁的說明文件。

2024/08/04

開心做遊戲 Happy Making Game

GameMaker｜Data Type 資料型態｜程式基礎

這篇內容，將會講解什麼是資料型態，以及與資料型態相關的知識。包括資料型態的簡介、實數、布林值、字串、陣列。

#遊戲製作#遊戲開發#遊戲設計

2024/07/29

開心做遊戲 Happy Making Game

GameMaker｜Data Type 資料型態｜程式基礎

這篇內容，將會講解什麼是資料型態，以及與資料型態相關的知識。包括資料型態的簡介、實數、布林值、字串、陣列。

#遊戲製作#遊戲開發#遊戲設計

2024/07/29

WilliamP的沙龍

根式化簡（一）

高中數學主題練習—根式化簡

#高中#數學#高中數學

2024/06/25

WilliamP的沙龍

根式化簡（一）

高中數學主題練習—根式化簡

#高中#數學#高中數學

2024/06/25

果農的沙龍

如何用Python繪製直方圖

本文介紹了如何使用資料樞紐分析的功能來整理所需的資料，並設定圖表的中文字型，最後提供了繪圖的程式碼範例。

#圖表#python#資料分析

2024/04/01

果農的沙龍

如何用Python繪製直方圖

本文介紹了如何使用資料樞紐分析的功能來整理所需的資料，並設定圖表的中文字型，最後提供了繪圖的程式碼範例。

#圖表#python#資料分析

2024/04/01

【圖論Graph】Part1：初探圖形與圖形演算法之應用

圖形演算法在資料處理上扮演重要角色。本文介紹圖形的歷史、定義、技術用途，以及為什麼我們要關心圖形演算法。文末還提及圖形演算法在機器學習領域的應用。下次將介紹更詳細的圖形演算法內容。

#學習#金融市場#圖形

2024/02/21

【圖論Graph】Part1：初探圖形與圖形演算法之應用

圖形演算法在資料處理上扮演重要角色。本文介紹圖形的歷史、定義、技術用途，以及為什麼我們要關心圖形演算法。文末還提及圖形演算法在機器學習領域的應用。下次將介紹更詳細的圖形演算法內容。

#學習#金融市場#圖形

2024/02/21

喜特先生官方沙龍

QUERY 函式大解析，系列文索引

這邊統整了所有過去發表過關於 QUERY 函式的教學分享，希望可以方便你按照順序閱讀和練習。 QUERY 可以用來查詢、篩選、聚集、排序資料，還可以做張簡易的資料透視表，是我在 Google 試算表上做數據分析、製作報告、製作儀表板時最常用的函式之一，既方便又好用，誠心推薦！

#喜特先生#教學#QUERY

2024/01/30

喜特先生官方沙龍

QUERY 函式大解析，系列文索引

這邊統整了所有過去發表過關於 QUERY 函式的教學分享，希望可以方便你按照順序閱讀和練習。 QUERY 可以用來查詢、篩選、聚集、排序資料，還可以做張簡易的資料透視表，是我在 Google 試算表上做數據分析、製作報告、製作儀表板時最常用的函式之一，既方便又好用，誠心推薦！

#喜特先生#教學#QUERY

2024/01/30

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News