GM 003|REaLTabFormer的父表模型和子表模型如何運作?

閱讀時間約 3 分鐘

今天聊聊由 Aivin V. Solatorio[1]於2023年發表的文章,


《REaLTabFormer: Generating Realistic Relational and Tabular Data using Transformers》[2]。


REaLTabFormer的全稱是Realistic Relational and Tabular Transformer,直接翻譯就是「真實的關係與表格Transformers」。


REaLTabFormer 這個名字,我感覺就是致敬之前討論的GReaT[3],Generation of Realistic Tabular data。


REaLTabFormer這篇文章的一個看點,


就是如何對「關係數據 Relational Data」[4] 做「生成式建模 Generative Modeling」。


關係數據在數據分析中很常見,因為許多問題常常不是一張表格就能回答,而是要整合多張表才能得到很完整的資訊。


REaLTabFormer 裡面介紹了「父表模型 Parent table model」以及「子表模型 Child table model」。


其中,父表模型專門建模「無關聯表格數據 Non-Relational Table Data」,而子表模型則是捕捉「關聯表格數據 Relational Table Data」。


而區分這兩種數據,就是要看你是不是覺得表格中的「列 Row」之間有相關性。有的話就是Relational Data,沒有的話就是Non-Relational Data。


所以,拿到一個大表格,你需要先去判斷,哪些「欄位 Columns」其數值之間是獨立的,那麼這些欄位就適合放入「父表 Parent Table」。而剩下的欄位,就可以視為「子表 Child Table」。


而父表中的每個「觀察 Observation」,會被看作是一個「序列 Sequence」,然後用「自回歸模型 Autoregressive Model」[5]去學習這個序列成員之間的條件分佈,如此就能生成父表中的「觀察 Observation」。


而子表中,由於「列 Row」之間有相關性,所以子表的一個單位,可以想成是「一串觀察 Sequence of Observations」。而要生成子表的單位,會把父表當作是給定的條件,然後使用Seq2Seq模型[6]的解碼器來生成。


如此,基本上父表格會用自回歸模型做建模,子表格會把父表格的資訊結合進Seq2Seq模型做建模,這樣就能生成關聯式數據了。


REaLTabFormer的這個做法,讓我們能研究「多表生成 Multi-Table Generation」這個研究主題,非常有意思。多表生成尤其在「數據協作 Data Collaboration」[7]的場景相當有潛力,是我認為非常有價值的研究主題之一。


Reference

[1] https://www.worldbank.org/en/about/people/a/aivin-vicquierra-solatorio

[2] https://arxiv.org/abs/2302.02041

[3] [[GM 001|語言模型真的能生成真實的表格數據嗎?]]

[4] https://r4ds.had.co.nz/relational-data.html

[5] https://en.wikipedia.org/wiki/Autoregressive_model

[6] https://en.wikipedia.org/wiki/Seq2seq

[7] https://www.linkedin.com/in/chi-hua-wang-82ba5ab2/

avatar-img
531會員
1.8K內容數
Outline as Content
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
王啟樺的沙龍 的其他內容
背後的機制是: 人類用戶:設定目標 AI Agent:定義任務排序任務 (Defining and Sequencing Tasks),執行任務 (Task Execution),評估 (Evaluation) 而這途中,AI Agent可以使用大語言模型,可以使用網路,可以使用其他工具。
剛開始唸博士的時候,做實驗總會有種神奇的心態,就是覺得自己設計的實驗一定有道理,還沒找到特別好的結果,可能只是某個設定不對,只要我加班加點,各種嘗試,一定可以突破!然而,這就是博士生會有的「盲目的自信」。當自己能開始想Idea,想實驗的設計時,都會想要自己的實驗能有個驚天動地的發現。
「經驗:第一次接觸的領域,業務內容,用自己的思考去行動,累積經驗。」 「復盤:透過各種角度,利用各種觀點,復盤經驗。」 「概念化:將從一個經驗得到的啟發,應用到其他的場景,形成自己的持論。」 「試行:持論化的東西,在新的場經中實驗看看。」
「你應該在你做的任何事情裡嘗試使用AI來幫忙。」 「隨著你的實驗,你會發現AI的幫忙可能是滿意,可能是很鳥, 可能很垃圾,也可能令你很不安。」「由於AI是“通用科技 (General Purpose Technology)”, 並不會有一本書能幫助你了解它全部的價值,以及他全部的限制。」
李松蔚老師在這講中,提供了一個3步驟框架,來幫助你我紀錄情緒。第一步:當你有情緒時,給情緒「命名」。(快樂,開心,幸福,憤怒,愧疚,焦慮,心虛)第二步:理解這個情緒與「什麼事」有關,是從哪裡來的。第三步:評估情緒的「大小」,是不是很嚴重,是不是一直持續,還是一下就沒了。
為什麼說簡單到複雜也要,複雜到簡單也要呢?其實,更精確的答案應該是:研究的問題描述要簡化,從複雜到簡單比較好;而研究的解決方案要深化,從簡單到有意義的複雜會比較好。然而,剛開始做研究的博士生,常常是相反的:研究的問題從簡單變成複雜,偏離現實狀況;研究的解法卻從複雜變簡單,得到文獻裡早有的答案。
背後的機制是: 人類用戶:設定目標 AI Agent:定義任務排序任務 (Defining and Sequencing Tasks),執行任務 (Task Execution),評估 (Evaluation) 而這途中,AI Agent可以使用大語言模型,可以使用網路,可以使用其他工具。
剛開始唸博士的時候,做實驗總會有種神奇的心態,就是覺得自己設計的實驗一定有道理,還沒找到特別好的結果,可能只是某個設定不對,只要我加班加點,各種嘗試,一定可以突破!然而,這就是博士生會有的「盲目的自信」。當自己能開始想Idea,想實驗的設計時,都會想要自己的實驗能有個驚天動地的發現。
「經驗:第一次接觸的領域,業務內容,用自己的思考去行動,累積經驗。」 「復盤:透過各種角度,利用各種觀點,復盤經驗。」 「概念化:將從一個經驗得到的啟發,應用到其他的場景,形成自己的持論。」 「試行:持論化的東西,在新的場經中實驗看看。」
「你應該在你做的任何事情裡嘗試使用AI來幫忙。」 「隨著你的實驗,你會發現AI的幫忙可能是滿意,可能是很鳥, 可能很垃圾,也可能令你很不安。」「由於AI是“通用科技 (General Purpose Technology)”, 並不會有一本書能幫助你了解它全部的價值,以及他全部的限制。」
李松蔚老師在這講中,提供了一個3步驟框架,來幫助你我紀錄情緒。第一步:當你有情緒時,給情緒「命名」。(快樂,開心,幸福,憤怒,愧疚,焦慮,心虛)第二步:理解這個情緒與「什麼事」有關,是從哪裡來的。第三步:評估情緒的「大小」,是不是很嚴重,是不是一直持續,還是一下就沒了。
為什麼說簡單到複雜也要,複雜到簡單也要呢?其實,更精確的答案應該是:研究的問題描述要簡化,從複雜到簡單比較好;而研究的解決方案要深化,從簡單到有意義的複雜會比較好。然而,剛開始做研究的博士生,常常是相反的:研究的問題從簡單變成複雜,偏離現實狀況;研究的解法卻從複雜變簡單,得到文獻裡早有的答案。
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
這篇內容,將會講解什麼是資料型態,以及與資料型態相關的知識。包括資料型態的簡介、實數、布林值、 字串、陣列。
Thumbnail
※ 關聯式資料庫(RDBMS)是什麼? 關聯式資料庫(RDBMS)是一種傳統的資料庫系統,以結構化查詢語言(SQL)為基礎,將資料儲存於預定義的表格中。這些表格包括行和列,彼此之間存在明確的關聯性。 ※ 關聯式資料庫(RDBMS)有兩個重要元素: 關聯(Relational): 關聯式資料庫
Thumbnail
🎗️本次主題成果展示:人力資訊分析 上集回顧 🔗EXCEL儀表板 | 人力資訊分析儀表板 #1 | 上手等級:入門🔗 🔗EXCEL儀表板 | 人力資訊分析儀表板 #2 | 上手等級:入門🔗 🔗EXCEL儀表板 | 人力資訊分析儀表板 #3 | 上手等級:入門🔗
Thumbnail
🎗️本次主題成果展示:人力資訊分析 上集回顧 🔗EXCEL儀表板 | 人力資訊分析儀表板 #1 | 上手等級:入門🔗 🔗EXCEL儀表板 | 人力資訊分析儀表板 #2 | 上手等級:入門🔗 ♐人力資訊儀表板分集 本次人力資訊儀錶板預計分成5集依循漸進逐步完成 資料整
Thumbnail
🎗️本次主題成果展示:人力資訊分析 上集回顧 🔗EXCEL儀表板 | 人力資訊分析儀表板 #1 | 上手等級:入門🔗 ♐人力資訊儀表板分集 本次人力資訊儀錶板預計分成5集依循漸進逐步完成 資料整理與人力資訊取得 區域樞紐分析+環圈圖 (本集教學) 性別樞紐分析+圖像
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
Tableau是一款數據視覺化工具,目的在於簡化數據分析和決策過程。通過直觀的可視化介面,讓人們無需編程也能進行數據探索和分析。支持多種數據源,包括Excel、SQL數據庫等,透過拖放操作創建圖表和儀表板,分享洞察見解。幫助使用者和組織更加數據驅動,優化決策和業務流程
Thumbnail
有趣的是,Model 其實沒什麼嚴格的定義,所以每個人對 Model 的解讀也不盡相同,有人覺得資料怎麼儲存屬於 Model 的一部份 (受 ORM 工具的影響),有人覺得工作流程 (workflow) 是 Model 的一部份,我個人也有自己的想法,而且隨專案的規模和特性,也不是總是一樣的。
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
這篇內容,將會講解什麼是資料型態,以及與資料型態相關的知識。包括資料型態的簡介、實數、布林值、 字串、陣列。
Thumbnail
※ 關聯式資料庫(RDBMS)是什麼? 關聯式資料庫(RDBMS)是一種傳統的資料庫系統,以結構化查詢語言(SQL)為基礎,將資料儲存於預定義的表格中。這些表格包括行和列,彼此之間存在明確的關聯性。 ※ 關聯式資料庫(RDBMS)有兩個重要元素: 關聯(Relational): 關聯式資料庫
Thumbnail
🎗️本次主題成果展示:人力資訊分析 上集回顧 🔗EXCEL儀表板 | 人力資訊分析儀表板 #1 | 上手等級:入門🔗 🔗EXCEL儀表板 | 人力資訊分析儀表板 #2 | 上手等級:入門🔗 🔗EXCEL儀表板 | 人力資訊分析儀表板 #3 | 上手等級:入門🔗
Thumbnail
🎗️本次主題成果展示:人力資訊分析 上集回顧 🔗EXCEL儀表板 | 人力資訊分析儀表板 #1 | 上手等級:入門🔗 🔗EXCEL儀表板 | 人力資訊分析儀表板 #2 | 上手等級:入門🔗 ♐人力資訊儀表板分集 本次人力資訊儀錶板預計分成5集依循漸進逐步完成 資料整
Thumbnail
🎗️本次主題成果展示:人力資訊分析 上集回顧 🔗EXCEL儀表板 | 人力資訊分析儀表板 #1 | 上手等級:入門🔗 ♐人力資訊儀表板分集 本次人力資訊儀錶板預計分成5集依循漸進逐步完成 資料整理與人力資訊取得 區域樞紐分析+環圈圖 (本集教學) 性別樞紐分析+圖像
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
Tableau是一款數據視覺化工具,目的在於簡化數據分析和決策過程。通過直觀的可視化介面,讓人們無需編程也能進行數據探索和分析。支持多種數據源,包括Excel、SQL數據庫等,透過拖放操作創建圖表和儀表板,分享洞察見解。幫助使用者和組織更加數據驅動,優化決策和業務流程
Thumbnail
有趣的是,Model 其實沒什麼嚴格的定義,所以每個人對 Model 的解讀也不盡相同,有人覺得資料怎麼儲存屬於 Model 的一部份 (受 ORM 工具的影響),有人覺得工作流程 (workflow) 是 Model 的一部份,我個人也有自己的想法,而且隨專案的規模和特性,也不是總是一樣的。