3個專家技巧來使用語言模型生成真實的表格數據:

更新於 發佈於 閱讀時間約 2 分鐘

1. 使用GReaT框架進行條件生成:

- Vadim Borisov在2023年發表的文章《Language Models are Realistic Tabular Data Generators》中提出了GReaT框架。GReaT代表Generation of Realistic Tabular data,專為生成真實的表格數據而設計。其一大優點是能夠進行條件生成,即給定一組特徵的子集,GReaT可以補全剩下的欄位。


2. 利用文本編碼器轉換表格數據:

- 在生成表格數據時,需將表格的「一列」轉換為生成模型所需的向量表達。Vadim在其文章的3.1節介紹了一種稱為「文本編碼器」的編碼方式,將表格轉為文本。這種編碼方式稱為「主語-謂語-賓語轉換」,例如紀錄「年紀59,教育碩士,性別男性」可以轉換為語言模型使用的文本。


3. 採用自迴歸建模進行生成:

- 由於語言模型使用「自迴歸建模」,打亂文本編碼時欄位的順序可以幫助語言模型理解這些欄位之間的獨立性,從而賦予語言模型進行條件生成的能力。例如,你可以將表格數據「教育碩士,年紀59,性別男性」轉換為「性別男性,年紀59,教育碩士」,以增強模型的生成效果。


你還有什麼其他的使用語言模型生成表格數據的技巧嗎?


請閱讀:


avatar-img
535會員
1.8K內容數
Outline as Content
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
王啟樺的沙龍 的其他內容
今天聊一聊由 Yu Bai [1] 於2023年發表的文章, 《Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection》[2]。 本文章的標題很有意思,
1. 讀書基本的紀錄: - 紀錄書籍情報和感想是讀書的基本步驟。這個建議來自日本作者倉下忠憲的著書《ロギング仕事術》,在書中的第133頁提到這一點。從高中開始,我的閱讀記錄方式就一直在變化。 2. 書店探索的重要性: - 高中的國文老師李靜妤在第一堂課時告訴我們:「高中生要
人不容易區分理想與現實,會高估自己一天的產能,會以為事情要成靠毅力就可以。但實際有操作過的話,都會發現你其實對自己的狀況掌握沒有想像中那麼好。而計畫是用來制約你一天的行動,我也很有共感。如果一天沒有計畫,很容易不知道要做什麼,時間就消失在滑社群貼文,隨意逛影片之中了。
1. 回收沒有與研究主題相關經驗的申請人: - 自傳履歷中應顯示申請人是否有與我們研究主題相關的經歷。缺乏這類經驗的申請人可能無法滿足我們的需求,因為他們可能不具備執行所需工作的基本知識和技能。 2. 忽視申請人的基礎技能: - 我在自傳履歷中會特別尋找申請人是否具備與我們工作要求相符的基
步驟1 - 為筆記編號,建立索引 在Obsidian中,將每個筆記編上獨立編號,使其成為易於引用的對象。無論是日常寫作還是社交媒體分享的短文,每篇都有編號,有助於重讀和迭代。這種方法讓想法得以有效組織和管理,提高了信息檢索的效率。
1. 教育經費的來源: - 作為博士生,可能會好奇系上的設施、薪水和活動經費是從哪裡來的。這些經費實際上是從你的系所屬的學院來的,而學院的經費則是從更上層的機構來的,這包括政府機構或私人研究機構。 2. 政府與私人機構的資金來源: - 政府機構的經費來自國民的納稅錢,這些資
今天聊一聊由 Yu Bai [1] 於2023年發表的文章, 《Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection》[2]。 本文章的標題很有意思,
1. 讀書基本的紀錄: - 紀錄書籍情報和感想是讀書的基本步驟。這個建議來自日本作者倉下忠憲的著書《ロギング仕事術》,在書中的第133頁提到這一點。從高中開始,我的閱讀記錄方式就一直在變化。 2. 書店探索的重要性: - 高中的國文老師李靜妤在第一堂課時告訴我們:「高中生要
人不容易區分理想與現實,會高估自己一天的產能,會以為事情要成靠毅力就可以。但實際有操作過的話,都會發現你其實對自己的狀況掌握沒有想像中那麼好。而計畫是用來制約你一天的行動,我也很有共感。如果一天沒有計畫,很容易不知道要做什麼,時間就消失在滑社群貼文,隨意逛影片之中了。
1. 回收沒有與研究主題相關經驗的申請人: - 自傳履歷中應顯示申請人是否有與我們研究主題相關的經歷。缺乏這類經驗的申請人可能無法滿足我們的需求,因為他們可能不具備執行所需工作的基本知識和技能。 2. 忽視申請人的基礎技能: - 我在自傳履歷中會特別尋找申請人是否具備與我們工作要求相符的基
步驟1 - 為筆記編號,建立索引 在Obsidian中,將每個筆記編上獨立編號,使其成為易於引用的對象。無論是日常寫作還是社交媒體分享的短文,每篇都有編號,有助於重讀和迭代。這種方法讓想法得以有效組織和管理,提高了信息檢索的效率。
1. 教育經費的來源: - 作為博士生,可能會好奇系上的設施、薪水和活動經費是從哪裡來的。這些經費實際上是從你的系所屬的學院來的,而學院的經費則是從更上層的機構來的,這包括政府機構或私人研究機構。 2. 政府與私人機構的資金來源: - 政府機構的經費來自國民的納稅錢,這些資
你可能也想看
Google News 追蹤
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型,並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing,現
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
大語言模型(如GPT-3和GPT-4)的出現改變了我們與機器互動的方式。這些模型能夠理解和生成自然語言,實現許多以前無法想像的應用。然而,你可能會好奇,這些模型究竟是如何理解語言的?這裡,我們來探討一個關鍵的概念:「一切語義都是關係」。
回顧我們的目標是自己做一個免錢Chat GPT 自己做免錢Chat GPT吧 當中,我希望外掛一個外部知識庫,叫做RAG,來提升整體問答的品質,同時又能避免機敏資訊被Chat GPT竊取。 緣由參見 ChatGPT回答不是你要的怎麼辦? 詳細實作於 使用Meta釋出的模型,實作Chat G
到目前為止,我們已經完成RAG技術的實作,在上一篇文章使用Meta釋出的模型,實作Chat GPT - Part 5中,可以看到加入RAG之後,可以讓我的大型語言模型回答更為精確。 現在我們要把它用一個畫面做呈現,而不是以程式碼來給大家看,就類似Chat GPT這樣,背後有複雜的程式運行,但是眾人
延續使用Meta釋出的模型,實作Chat GPT - Part 4,我們現在遇到一個問題:語言模型回答的資訊不是我想要的。 於是我參照ChatGPT回答不是你要的怎麼辦?,想使用低成本的技術:RAG,來改善這問題。 以下開始實作,首先引入一個重量級工具包,它叫做LangChain,這是做語言模型
在使用Meta釋出的模型,實作Chat GPT - Part 3中我們已經建立好大型語言模型遇到哪些「字串」要停止輸出的列表,現在我們將它製作成一個物件,對應程式如下: from transformers import StoppingCriteria, StoppingCriteriaList
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
作者用常見的生活模式為底,分享所見所聞,提供自己對於這些情況的建議。詞彙的使用跟實力培養絕對是需要時間的,也非常需要靠別人的作品來當作自己的養分來源,多閱讀別人的書籍、文字、而且是有意識的學習,然後再加上實踐,相信慢慢就能寫出吸引人的文字、甚至發展出自己的風格。
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型,並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing,現
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
大語言模型(如GPT-3和GPT-4)的出現改變了我們與機器互動的方式。這些模型能夠理解和生成自然語言,實現許多以前無法想像的應用。然而,你可能會好奇,這些模型究竟是如何理解語言的?這裡,我們來探討一個關鍵的概念:「一切語義都是關係」。
回顧我們的目標是自己做一個免錢Chat GPT 自己做免錢Chat GPT吧 當中,我希望外掛一個外部知識庫,叫做RAG,來提升整體問答的品質,同時又能避免機敏資訊被Chat GPT竊取。 緣由參見 ChatGPT回答不是你要的怎麼辦? 詳細實作於 使用Meta釋出的模型,實作Chat G
到目前為止,我們已經完成RAG技術的實作,在上一篇文章使用Meta釋出的模型,實作Chat GPT - Part 5中,可以看到加入RAG之後,可以讓我的大型語言模型回答更為精確。 現在我們要把它用一個畫面做呈現,而不是以程式碼來給大家看,就類似Chat GPT這樣,背後有複雜的程式運行,但是眾人
延續使用Meta釋出的模型,實作Chat GPT - Part 4,我們現在遇到一個問題:語言模型回答的資訊不是我想要的。 於是我參照ChatGPT回答不是你要的怎麼辦?,想使用低成本的技術:RAG,來改善這問題。 以下開始實作,首先引入一個重量級工具包,它叫做LangChain,這是做語言模型
在使用Meta釋出的模型,實作Chat GPT - Part 3中我們已經建立好大型語言模型遇到哪些「字串」要停止輸出的列表,現在我們將它製作成一個物件,對應程式如下: from transformers import StoppingCriteria, StoppingCriteriaList
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
作者用常見的生活模式為底,分享所見所聞,提供自己對於這些情況的建議。詞彙的使用跟實力培養絕對是需要時間的,也非常需要靠別人的作品來當作自己的養分來源,多閱讀別人的書籍、文字、而且是有意識的學習,然後再加上實踐,相信慢慢就能寫出吸引人的文字、甚至發展出自己的風格。