讓人工智慧取得自我反思的能力-回答正確率大幅提升

閱讀時間約 4 分鐘

Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection

Akari AsaiZeqiu WuYizhong WangAvirup SilHannaneh Hajishirzi

作者提供了他們的代碼和訓練好的模型,以供進一步研究使用。

前言:

論文引入了一個新的結合資料檢索自我反思(self-reflection),大幅提升回答長篇內容的品質。手法就是創造了三種反思標記,讓大型語言模型去評判檢索來的資料與問題有相關,有足夠理論事實基礎,並且能評判回答內容存在有用的資訊,如下圖所示。

在網路上找到的資料未必能用來回答使用者的問題,使用反思標籤去Critic,強化以後可以改善回答問題的品質

在網路上找到的資料未必能用來回答使用者的問題,使用反思標籤去Critic,強化以後可以改善回答問題的品質

實用性探討:

這些反思標記賦予語言模型的開發可控性,使其能夠根據不同任務需求調整自身行為。實驗結果顯示,SELF-RAG在各種任務上表現明顯優於現有的LLM和檢索增強型模型。

具體來說,SELF-RAG在開放領域問答、推理和事實驗證等任務中優於ChatGPT和檢索增強型的Llama2-chat。

SELF-RAG在改進長篇生成的事實性和引文準確性方面取得了明顯的進展。

藉由各種反思標籤,來提取純化拿來回答的內容

藉由各種反思標籤,來提取純化拿來回答的內容

解決痛點:

儘管大型語言模型(LLM)具有卓越的能力,但它們存在生成包含錯誤事實的風險,因為它們完全依賴內部參數化的知識。

這份論文的重要性在於它提出了SELF-RAG框架,通過檢索和自我反思,改進了大型語言模型的質量和事實性。這個框架的特點包括:

1. 允許LLM根據需求自動檢索段落,而不是盲目檢索固定數量的段落。

2. 賦予LLM能力評估自身生成的內容,從而選擇最佳的生成結果,而不僅僅依賴單一生成結果或外部評估。

3. 提供LLM在推論階段的可控性,以適應不同的任務需求。

訓練資料要確保檢索網路出來的結果與想要回答的問題是有關聯且基於事實的。

訓練資料要確保檢索網路出來的結果與想要回答的問題是有關聯且基於事實的。

導入此技術帶來的好處:

研究者可以在其研究中應用SELF-RAG框架的方法,包括增強現有的語言模型,控制推論階段,提高生成內容的事實性以及應對多樣的任務輸入。同時,作者已提供相關的代碼和模型,以便研究者深入了解SELF-RAG的實現細節,重現研究結果,或者將該方法應用於自己的研究領域,以下是你預期SELF-RAG可以為你的MODEL帶來的好處。

藉由Self-RAG,回答正確率Metric評估指標,有很明顯的提升

藉由Self-RAG,回答正確率Metric評估指標,有很明顯的提升

SELF-RAG 使用限制:

雖然SELF-RAG框架具有許多優勢,但也存在一些潛在的限制,包括對檢索段落質量和相關性的依賴、仍可能存在事實錯誤或不一致性以及需要大規模訓練語料庫的挑戰。此外,對於複雜的推理或推斷性任務,可能需要更多的處理能力。

引用:

@misc{asai2023selfrag,
title={Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection},
author={Akari Asai and Zeqiu Wu and Yizhong Wang and Avirup Sil and Hannaneh Hajishirzi},
year={2023},
eprint={2310.11511},
archivePrefix={arXiv},
primaryClass={cs.CL}
}


如果你對 AI 充滿熱情,學習上又不想浪費時間,我能夠以過來人的經驗給你不少想法,歡迎在Facebook群裡面留言。

如果想要用Zoom直接交談,為你直接解惑的,也可以點以下連結預約時間 (1小時)

 https://calendly.com/universe_ai/free_appointment






avatar-img
96會員
128內容數
帶你用上帝視角,針對市面上具有高度價值的影片/論文/書籍,用東方取象,與西方邏輯辯證的角度同時出發,跟著我一起來探討宇宙萬事萬物的本質,隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷,近期對於人工智慧,東方易經,西方辯證邏輯,還有佛法向內求有深度興趣。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
為了避免GPT模型對人類社會造成危害,要有一個指標來評量個語言模型的資訊透明度。當有關於模型的公開訊息越多,無論是訓練資料的取得來源與資料搜集方法,還是模型細節的接露,與產生結果的限制用途與目標客群等等,都是這篇論文關心且要衡量的指標,藉由評分防止發行人工智慧的大科技公司可能造成的社會危害
訓練一個專屬於自己的守護神有其重要性,可以幫你個性化的解決問題,例如,如果上班常常解讀每個公司的資產負債表,則你可以利用文中的Fuyu-8b model專門的去學習如何看資產負債表,把你手邊有的案例都讓他學習一遍,這樣未來可以解放雙手,輕鬆上班完成任務。
每天有這麼多的金融數據在變化著,做為一個非全職投資人,要如何同時間掌握這麼多經濟數據與新聞報導,替投資理財做下相對正確的判斷,這時候你會需要自己的投資守護神語言模型,藉由新聞與訊息的整理爬蟲,導入自行訓練的守護神語言模型,讓他每天定時產生社論與投資建議,藉由Email 送出來給您參考,省去你不少時間
大名鼎鼎的openai推出Whisper-large-v2 AI 的第二版,可以用來製作屬於自己的自動影片上字幕程式,就讓我們一起來看看吧!
2023年被各大主流媒體稱為AI元年,GPT4 在國際生物奧林匹亞競賽大放異彩,擊敗 99% 的資優生,無人可敵。擁有人工技術,等於擁有世界頂尖員工,24小時不停歇,為你不斷生出結果。然而,多數人對 AI 基本知識仍不明白,知識差距急速擴大,要想不被AI取代,必須懂AI與活用AI。
為了避免GPT模型對人類社會造成危害,要有一個指標來評量個語言模型的資訊透明度。當有關於模型的公開訊息越多,無論是訓練資料的取得來源與資料搜集方法,還是模型細節的接露,與產生結果的限制用途與目標客群等等,都是這篇論文關心且要衡量的指標,藉由評分防止發行人工智慧的大科技公司可能造成的社會危害
訓練一個專屬於自己的守護神有其重要性,可以幫你個性化的解決問題,例如,如果上班常常解讀每個公司的資產負債表,則你可以利用文中的Fuyu-8b model專門的去學習如何看資產負債表,把你手邊有的案例都讓他學習一遍,這樣未來可以解放雙手,輕鬆上班完成任務。
每天有這麼多的金融數據在變化著,做為一個非全職投資人,要如何同時間掌握這麼多經濟數據與新聞報導,替投資理財做下相對正確的判斷,這時候你會需要自己的投資守護神語言模型,藉由新聞與訊息的整理爬蟲,導入自行訓練的守護神語言模型,讓他每天定時產生社論與投資建議,藉由Email 送出來給您參考,省去你不少時間
大名鼎鼎的openai推出Whisper-large-v2 AI 的第二版,可以用來製作屬於自己的自動影片上字幕程式,就讓我們一起來看看吧!
2023年被各大主流媒體稱為AI元年,GPT4 在國際生物奧林匹亞競賽大放異彩,擊敗 99% 的資優生,無人可敵。擁有人工技術,等於擁有世界頂尖員工,24小時不停歇,為你不斷生出結果。然而,多數人對 AI 基本知識仍不明白,知識差距急速擴大,要想不被AI取代,必須懂AI與活用AI。
本篇參與的主題活動
先前麥克買了在預算及性能方面都十分複合需求的NXTPAPER 11平板,但拿到辦公室使用後便發現因為時不時有簡報需求,主機本身不支援有線視訊輸出實在是非常不方便,因又開始尋找新歡。最終麥克選擇了算是還滿熟悉的品牌小米旗下的小米平板6,以下為麥克這一個月下來的使用心得。
從預計的十月底出貨經過重重波折,Pubu自家開發的10寸彩色閱讀器Pubook Pro終於是送到第一批集資者手中了。究竟這台閱讀器有沒有本事撼動目前的電子紙閱讀器市場?有達到集資時承諾的各項功能嗎?且讓身為首批集資者之一的麥克跟大家談談收到主機後使用數天的感想。
Steam Deck 迎來大改版,最重要的更新就是換成 OLED 螢幕。使用 OLED 螢幕帶來更好看的顏色,大小還小幅提升到 7.4 吋。關係續航力的電池也從 40 瓦小時升級到 50 瓦小時, 3A 大作都可以多玩一小時呢!這麼香的更新,怎麼不給他買下去呢 😄
先前麥克買了在預算及性能方面都十分複合需求的NXTPAPER 11平板,但拿到辦公室使用後便發現因為時不時有簡報需求,主機本身不支援有線視訊輸出實在是非常不方便,因又開始尋找新歡。最終麥克選擇了算是還滿熟悉的品牌小米旗下的小米平板6,以下為麥克這一個月下來的使用心得。
從預計的十月底出貨經過重重波折,Pubu自家開發的10寸彩色閱讀器Pubook Pro終於是送到第一批集資者手中了。究竟這台閱讀器有沒有本事撼動目前的電子紙閱讀器市場?有達到集資時承諾的各項功能嗎?且讓身為首批集資者之一的麥克跟大家談談收到主機後使用數天的感想。
Steam Deck 迎來大改版,最重要的更新就是換成 OLED 螢幕。使用 OLED 螢幕帶來更好看的顏色,大小還小幅提升到 7.4 吋。關係續航力的電池也從 40 瓦小時升級到 50 瓦小時, 3A 大作都可以多玩一小時呢!這麼香的更新,怎麼不給他買下去呢 😄
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
Thumbnail
Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
Thumbnail
  大方向上,姜峯楠強調的是創造與表達中「人」的要素之重要性。譬如作家在每一句話的用字遣詞上有意無意做的無數選擇、或一名孩童寄給奧運選手的粉絲信上的真誠激動。他認為這些不是當前的生成式AI能提供的,而且,這不是因為當前的AI還不夠好,而是因為,當前的這種生成式AI,本性上是一種「去人類化」工具。
Thumbnail
各位創意達人、懶鬼(誤),看這裡看這裡! 今天要分享五個超酷的 AI 工具,讓大家通通變身哆啦A夢,用人工智慧幫你完成各種不可能的任務!
Thumbnail
2023年被世人稱做生成式AI世代的元年,各式各樣的AI工具不斷湧現,改變了人們的生活。本文將詳細介紹人工智慧和機器學習的相關知識,以及各種人工智慧和機器學習的實現方法。
Thumbnail
投資者如何發掘 AI 機遇? 目前,許多投資者將注意力集中在被稱為“七巨頭”的幾家大型科技股上,作為 AI 進步的主要受益者。然而,鑑於 AI 影響的廣泛性,摩根士丹利認為,從消費者選擇到健康護理和金融等多個行業,還有更多公司可能受益。 領導者可能持續領先 AI 的許多經濟利益可能會歸
Thumbnail
作者提出一新框架SELF-RAG,強調了大型語言模型(LMMs)的質量和事實性改進,依據需求自動檢索段落,以反思標記生成和評估內容。SELF-RAG讓LMMs自主決定檢索時機和內容,並使其能評估自身生成。實驗表明SELF-RAG改寫LMMs規則,為自主學習和多任務適應的未來鋪平道路。
Thumbnail
這是6月20日的新聞,十幾歲的男孩子在日本愛知縣一家縣立醫院接受痔瘡手術之後,卻發生了出血性休克而死亡,醫院院長率同仁召開記者會謝罪。
Thumbnail
這是一本講述人工智慧的發展,以及企業在導入人工智慧會遇到的困境,和擁抱人工智慧所需要具備的條件,給身在台灣的各位一個思考的方向,是一本很值得一讀的書。
Thumbnail
當你剛運動完口很渴的時候,看著眼前的半杯水,你心中會產生什麼樣的想法呢? 只剩一半,怎麼會夠喝? 還有半杯水可以喝,真好啊! 一樣是半杯水,為什麼會有截然不同的看法?這就是所謂的「認知差異」,當看待事情的角度不同,自然也會產生不同的情緒感受,也就是說讓人感到不快樂的真正原因在於我們對事情的「認知」,
Thumbnail
尋找生命熱情的方式有很多種,但無論你採用哪一種,一定都需要「自我意志」和「自我覺察」參與其中,因此,今天想和大家推薦一個我很愛的自我覺察小工具 — — 晨間隨筆! 有別於一般的日記,晨間隨筆之所以必須在「晨間」書寫,我認為是因為這避免了「流水帳」的現象,同時,也幫助你抓緊機會記錄潛意識的寶貴想法。
Thumbnail
年後熱門的職場話題,是否要繼續堅守現有崗位?亦或是開始一份新工作?是許多上班族正在心中反覆斟酌的問題。職涯不是短跑。構建一段成功職涯不僅在於找到你熱愛的工作,而且是建立起你熱愛的生活。
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
Thumbnail
Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
Thumbnail
  大方向上,姜峯楠強調的是創造與表達中「人」的要素之重要性。譬如作家在每一句話的用字遣詞上有意無意做的無數選擇、或一名孩童寄給奧運選手的粉絲信上的真誠激動。他認為這些不是當前的生成式AI能提供的,而且,這不是因為當前的AI還不夠好,而是因為,當前的這種生成式AI,本性上是一種「去人類化」工具。
Thumbnail
各位創意達人、懶鬼(誤),看這裡看這裡! 今天要分享五個超酷的 AI 工具,讓大家通通變身哆啦A夢,用人工智慧幫你完成各種不可能的任務!
Thumbnail
2023年被世人稱做生成式AI世代的元年,各式各樣的AI工具不斷湧現,改變了人們的生活。本文將詳細介紹人工智慧和機器學習的相關知識,以及各種人工智慧和機器學習的實現方法。
Thumbnail
投資者如何發掘 AI 機遇? 目前,許多投資者將注意力集中在被稱為“七巨頭”的幾家大型科技股上,作為 AI 進步的主要受益者。然而,鑑於 AI 影響的廣泛性,摩根士丹利認為,從消費者選擇到健康護理和金融等多個行業,還有更多公司可能受益。 領導者可能持續領先 AI 的許多經濟利益可能會歸
Thumbnail
作者提出一新框架SELF-RAG,強調了大型語言模型(LMMs)的質量和事實性改進,依據需求自動檢索段落,以反思標記生成和評估內容。SELF-RAG讓LMMs自主決定檢索時機和內容,並使其能評估自身生成。實驗表明SELF-RAG改寫LMMs規則,為自主學習和多任務適應的未來鋪平道路。
Thumbnail
這是6月20日的新聞,十幾歲的男孩子在日本愛知縣一家縣立醫院接受痔瘡手術之後,卻發生了出血性休克而死亡,醫院院長率同仁召開記者會謝罪。
Thumbnail
這是一本講述人工智慧的發展,以及企業在導入人工智慧會遇到的困境,和擁抱人工智慧所需要具備的條件,給身在台灣的各位一個思考的方向,是一本很值得一讀的書。
Thumbnail
當你剛運動完口很渴的時候,看著眼前的半杯水,你心中會產生什麼樣的想法呢? 只剩一半,怎麼會夠喝? 還有半杯水可以喝,真好啊! 一樣是半杯水,為什麼會有截然不同的看法?這就是所謂的「認知差異」,當看待事情的角度不同,自然也會產生不同的情緒感受,也就是說讓人感到不快樂的真正原因在於我們對事情的「認知」,
Thumbnail
尋找生命熱情的方式有很多種,但無論你採用哪一種,一定都需要「自我意志」和「自我覺察」參與其中,因此,今天想和大家推薦一個我很愛的自我覺察小工具 — — 晨間隨筆! 有別於一般的日記,晨間隨筆之所以必須在「晨間」書寫,我認為是因為這避免了「流水帳」的現象,同時,也幫助你抓緊機會記錄潛意識的寶貴想法。
Thumbnail
年後熱門的職場話題,是否要繼續堅守現有崗位?亦或是開始一份新工作?是許多上班族正在心中反覆斟酌的問題。職涯不是短跑。構建一段成功職涯不僅在於找到你熱愛的工作,而且是建立起你熱愛的生活。