GM 003|REaLTabFormer的父表模型和子表模型如何運作?

閱讀時間約 3 分鐘

今天聊聊由 Aivin V. Solatorio[1]於2023年發表的文章,


《REaLTabFormer: Generating Realistic Relational and Tabular Data using Transformers》[2]。


REaLTabFormer的全稱是Realistic Relational and Tabular Transformer,直接翻譯就是「真實的關係與表格Transformers」。


REaLTabFormer 這個名字,我感覺就是致敬之前討論的GReaT[3],Generation of Realistic Tabular data。


REaLTabFormer這篇文章的一個看點,


就是如何對「關係數據 Relational Data」[4] 做「生成式建模 Generative Modeling」。


關係數據在數據分析中很常見,因為許多問題常常不是一張表格就能回答,而是要整合多張表才能得到很完整的資訊。


REaLTabFormer 裡面介紹了「父表模型 Parent table model」以及「子表模型 Child table model」。


其中,父表模型專門建模「無關聯表格數據 Non-Relational Table Data」,而子表模型則是捕捉「關聯表格數據 Relational Table Data」。


而區分這兩種數據,就是要看你是不是覺得表格中的「列 Row」之間有相關性。有的話就是Relational Data,沒有的話就是Non-Relational Data。


所以,拿到一個大表格,你需要先去判斷,哪些「欄位 Columns」其數值之間是獨立的,那麼這些欄位就適合放入「父表 Parent Table」。而剩下的欄位,就可以視為「子表 Child Table」。


而父表中的每個「觀察 Observation」,會被看作是一個「序列 Sequence」,然後用「自回歸模型 Autoregressive Model」[5]去學習這個序列成員之間的條件分佈,如此就能生成父表中的「觀察 Observation」。


而子表中,由於「列 Row」之間有相關性,所以子表的一個單位,可以想成是「一串觀察 Sequence of Observations」。而要生成子表的單位,會把父表當作是給定的條件,然後使用Seq2Seq模型[6]的解碼器來生成。


如此,基本上父表格會用自回歸模型做建模,子表格會把父表格的資訊結合進Seq2Seq模型做建模,這樣就能生成關聯式數據了。


REaLTabFormer的這個做法,讓我們能研究「多表生成 Multi-Table Generation」這個研究主題,非常有意思。多表生成尤其在「數據協作 Data Collaboration」[7]的場景相當有潛力,是我認為非常有價值的研究主題之一。


Reference

[1] https://www.worldbank.org/en/about/people/a/aivin-vicquierra-solatorio

[2] https://arxiv.org/abs/2302.02041

[3] [[GM 001|語言模型真的能生成真實的表格數據嗎?]]

[4] https://r4ds.had.co.nz/relational-data.html

[5] https://en.wikipedia.org/wiki/Autoregressive_model

[6] https://en.wikipedia.org/wiki/Seq2seq

[7] https://www.linkedin.com/in/chi-hua-wang-82ba5ab2/

398會員
1.4K內容數
Outline as Content
留言0
查看全部
發表第一個留言支持創作者!
王啟樺的沙龍 的其他內容
背後的機制是: 人類用戶:設定目標 AI Agent:定義任務排序任務 (Defining and Sequencing Tasks),執行任務 (Task Execution),評估 (Evaluation) 而這途中,AI Agent可以使用大語言模型,可以使用網路,可以使用其他工具。
剛開始唸博士的時候,做實驗總會有種神奇的心態,就是覺得自己設計的實驗一定有道理,還沒找到特別好的結果,可能只是某個設定不對,只要我加班加點,各種嘗試,一定可以突破!然而,這就是博士生會有的「盲目的自信」。當自己能開始想Idea,想實驗的設計時,都會想要自己的實驗能有個驚天動地的發現。
「經驗:第一次接觸的領域,業務內容,用自己的思考去行動,累積經驗。」 「復盤:透過各種角度,利用各種觀點,復盤經驗。」 「概念化:將從一個經驗得到的啟發,應用到其他的場景,形成自己的持論。」 「試行:持論化的東西,在新的場經中實驗看看。」
「你應該在你做的任何事情裡嘗試使用AI來幫忙。」 「隨著你的實驗,你會發現AI的幫忙可能是滿意,可能是很鳥, 可能很垃圾,也可能令你很不安。」「由於AI是“通用科技 (General Purpose Technology)”, 並不會有一本書能幫助你了解它全部的價值,以及他全部的限制。」
李松蔚老師在這講中,提供了一個3步驟框架,來幫助你我紀錄情緒。第一步:當你有情緒時,給情緒「命名」。(快樂,開心,幸福,憤怒,愧疚,焦慮,心虛)第二步:理解這個情緒與「什麼事」有關,是從哪裡來的。第三步:評估情緒的「大小」,是不是很嚴重,是不是一直持續,還是一下就沒了。
為什麼說簡單到複雜也要,複雜到簡單也要呢?其實,更精確的答案應該是:研究的問題描述要簡化,從複雜到簡單比較好;而研究的解決方案要深化,從簡單到有意義的複雜會比較好。然而,剛開始做研究的博士生,常常是相反的:研究的問題從簡單變成複雜,偏離現實狀況;研究的解法卻從複雜變簡單,得到文獻裡早有的答案。
背後的機制是: 人類用戶:設定目標 AI Agent:定義任務排序任務 (Defining and Sequencing Tasks),執行任務 (Task Execution),評估 (Evaluation) 而這途中,AI Agent可以使用大語言模型,可以使用網路,可以使用其他工具。
剛開始唸博士的時候,做實驗總會有種神奇的心態,就是覺得自己設計的實驗一定有道理,還沒找到特別好的結果,可能只是某個設定不對,只要我加班加點,各種嘗試,一定可以突破!然而,這就是博士生會有的「盲目的自信」。當自己能開始想Idea,想實驗的設計時,都會想要自己的實驗能有個驚天動地的發現。
「經驗:第一次接觸的領域,業務內容,用自己的思考去行動,累積經驗。」 「復盤:透過各種角度,利用各種觀點,復盤經驗。」 「概念化:將從一個經驗得到的啟發,應用到其他的場景,形成自己的持論。」 「試行:持論化的東西,在新的場經中實驗看看。」
「你應該在你做的任何事情裡嘗試使用AI來幫忙。」 「隨著你的實驗,你會發現AI的幫忙可能是滿意,可能是很鳥, 可能很垃圾,也可能令你很不安。」「由於AI是“通用科技 (General Purpose Technology)”, 並不會有一本書能幫助你了解它全部的價值,以及他全部的限制。」
李松蔚老師在這講中,提供了一個3步驟框架,來幫助你我紀錄情緒。第一步:當你有情緒時,給情緒「命名」。(快樂,開心,幸福,憤怒,愧疚,焦慮,心虛)第二步:理解這個情緒與「什麼事」有關,是從哪裡來的。第三步:評估情緒的「大小」,是不是很嚴重,是不是一直持續,還是一下就沒了。
為什麼說簡單到複雜也要,複雜到簡單也要呢?其實,更精確的答案應該是:研究的問題描述要簡化,從複雜到簡單比較好;而研究的解決方案要深化,從簡單到有意義的複雜會比較好。然而,剛開始做研究的博士生,常常是相反的:研究的問題從簡單變成複雜,偏離現實狀況;研究的解法卻從複雜變簡單,得到文獻裡早有的答案。
你可能也想看
Google News 追蹤
Thumbnail
接下來第二部分我們持續討論美國總統大選如何佈局, 以及選前一週到年底的操作策略建議 分析兩位候選人政策利多/ 利空的板塊和股票
Thumbnail
🤔為什麼團長的能力是死亡筆記本? 🤔為什麼像是死亡筆記本呢? 🤨作者巧思-讓妮翁死亡合理的幾個伏筆
Thumbnail
2019年時有一場很特別的TRPG推廣活動,名為「龍與地下城 5 版 GM 培訓課程」。 這活動特別地方在於,它是以培養龍與地下城系統的「DM」為目標,而不是「玩家」。對我來說,這是我實際開始接觸TRPG的起點。 這篇文章是想針對一些網路流言做釐清,並將幾年前的依稀記憶記錄下來…
Thumbnail
#2024GM春 #天國與地獄 雖然這款不禁讓我連想到2023年的「天使與惡魔」但它不是吃墩遊戲,而是大老二遊戲。看簡介有導入最近討論度很高的「接替手牌」機制,感覺有點意思,預備入手 #Bartendoubt (暫譯:吹牛調酒大師) 真正的調酒大師喝一口就知道比例,但是,你確定他說的是真的嗎
Polymetal International plc: Results of GM Polymetal International plc Results of GM Polymetal International plc (the “Company”) announces that at
Thumbnail
前陣子在滑噗浪河道時,看到了一波跟風潮提問了:分享一下對你而言,GM最重要的一項特質是什麼? 起初看到這個問題時,我猶豫了很久。除了選擇障礙的原因外,好像有其他更深的理由讓我遲遲無法下決定。 後來細思後,那個問題變成了:「面對TRPG時,GM最重要的特質是什麼?」
一個魚塘内的魚,從出世開始,便生活在這個魚塘之内,他們的視野也只能停留在魚塘之内,一直沒有受到外在的水流衝擊,哪怕出面風高浪急,也不管,也管不了。 日子長了,魚塘内的魚因爲沒有外在威脅,慢慢變得反應遲鈍,哪怕有漁夫拿著魚叉漁網,也不懂閃躲,漁夫們便樂翻了,一槍一條,一網一大羅,百發百中。 一家公司,
Thumbnail
GM 最新商業模式:幫特斯拉修車,趕特斯拉電動車銷售方面或許不太順利,但這家百年車廠在另一個市場找到契機:電動車維修。 不過也不用太傷心,目前賣電動車的廠商,還沒有人打贏特斯拉【註】,打不敗怎麼辦,那我就加入他,這是GM新嗅到的契機,雖然一開始看到這個新聞我覺得蠻好笑的,第一次有財經訊息讓我笑出來。
Thumbnail
在Tesla努力賣車賺錢的同時,有不少人覺得他們最後還是會被收購。然而,Tesla的市值其實已經超過許多傳統車廠的總和,應該是他們買別人吧?如果要買的話,Tesla會考慮乾脆買下一家傳統車廠,來取得更強大的生產和銷售能量嗎?
Thumbnail
​ 上面那隻是GM的奇怪吉祥物之一 看起來像企鵝跟紅面薑母鴨的混種XD 但是牠有肚臍ㄟ!!! 所以其實是胎生的??
Thumbnail
接下來第二部分我們持續討論美國總統大選如何佈局, 以及選前一週到年底的操作策略建議 分析兩位候選人政策利多/ 利空的板塊和股票
Thumbnail
🤔為什麼團長的能力是死亡筆記本? 🤔為什麼像是死亡筆記本呢? 🤨作者巧思-讓妮翁死亡合理的幾個伏筆
Thumbnail
2019年時有一場很特別的TRPG推廣活動,名為「龍與地下城 5 版 GM 培訓課程」。 這活動特別地方在於,它是以培養龍與地下城系統的「DM」為目標,而不是「玩家」。對我來說,這是我實際開始接觸TRPG的起點。 這篇文章是想針對一些網路流言做釐清,並將幾年前的依稀記憶記錄下來…
Thumbnail
#2024GM春 #天國與地獄 雖然這款不禁讓我連想到2023年的「天使與惡魔」但它不是吃墩遊戲,而是大老二遊戲。看簡介有導入最近討論度很高的「接替手牌」機制,感覺有點意思,預備入手 #Bartendoubt (暫譯:吹牛調酒大師) 真正的調酒大師喝一口就知道比例,但是,你確定他說的是真的嗎
Polymetal International plc: Results of GM Polymetal International plc Results of GM Polymetal International plc (the “Company”) announces that at
Thumbnail
前陣子在滑噗浪河道時,看到了一波跟風潮提問了:分享一下對你而言,GM最重要的一項特質是什麼? 起初看到這個問題時,我猶豫了很久。除了選擇障礙的原因外,好像有其他更深的理由讓我遲遲無法下決定。 後來細思後,那個問題變成了:「面對TRPG時,GM最重要的特質是什麼?」
一個魚塘内的魚,從出世開始,便生活在這個魚塘之内,他們的視野也只能停留在魚塘之内,一直沒有受到外在的水流衝擊,哪怕出面風高浪急,也不管,也管不了。 日子長了,魚塘内的魚因爲沒有外在威脅,慢慢變得反應遲鈍,哪怕有漁夫拿著魚叉漁網,也不懂閃躲,漁夫們便樂翻了,一槍一條,一網一大羅,百發百中。 一家公司,
Thumbnail
GM 最新商業模式:幫特斯拉修車,趕特斯拉電動車銷售方面或許不太順利,但這家百年車廠在另一個市場找到契機:電動車維修。 不過也不用太傷心,目前賣電動車的廠商,還沒有人打贏特斯拉【註】,打不敗怎麼辦,那我就加入他,這是GM新嗅到的契機,雖然一開始看到這個新聞我覺得蠻好笑的,第一次有財經訊息讓我笑出來。
Thumbnail
在Tesla努力賣車賺錢的同時,有不少人覺得他們最後還是會被收購。然而,Tesla的市值其實已經超過許多傳統車廠的總和,應該是他們買別人吧?如果要買的話,Tesla會考慮乾脆買下一家傳統車廠,來取得更強大的生產和銷售能量嗎?
Thumbnail
​ 上面那隻是GM的奇怪吉祥物之一 看起來像企鵝跟紅面薑母鴨的混種XD 但是牠有肚臍ㄟ!!! 所以其實是胎生的??