讓人工智慧取得自我反思的能力-回答正確率大幅提升

讓人工智慧取得自我反思的能力-回答正確率大幅提升

更新於 發佈於 閱讀時間約 4 分鐘

Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection

Akari AsaiZeqiu WuYizhong WangAvirup SilHannaneh Hajishirzi

作者提供了他們的代碼和訓練好的模型,以供進一步研究使用。

前言:

論文引入了一個新的結合資料檢索自我反思(self-reflection),大幅提升回答長篇內容的品質。手法就是創造了三種反思標記,讓大型語言模型去評判檢索來的資料與問題有相關,有足夠理論事實基礎,並且能評判回答內容存在有用的資訊,如下圖所示。

在網路上找到的資料未必能用來回答使用者的問題,使用反思標籤去Critic,強化以後可以改善回答問題的品質

在網路上找到的資料未必能用來回答使用者的問題,使用反思標籤去Critic,強化以後可以改善回答問題的品質

實用性探討:

這些反思標記賦予語言模型的開發可控性,使其能夠根據不同任務需求調整自身行為。實驗結果顯示,SELF-RAG在各種任務上表現明顯優於現有的LLM和檢索增強型模型。

具體來說,SELF-RAG在開放領域問答、推理和事實驗證等任務中優於ChatGPT和檢索增強型的Llama2-chat。

SELF-RAG在改進長篇生成的事實性和引文準確性方面取得了明顯的進展。

藉由各種反思標籤,來提取純化拿來回答的內容

藉由各種反思標籤,來提取純化拿來回答的內容

解決痛點:

儘管大型語言模型(LLM)具有卓越的能力,但它們存在生成包含錯誤事實的風險,因為它們完全依賴內部參數化的知識。

這份論文的重要性在於它提出了SELF-RAG框架,通過檢索和自我反思,改進了大型語言模型的質量和事實性。這個框架的特點包括:

1. 允許LLM根據需求自動檢索段落,而不是盲目檢索固定數量的段落。

2. 賦予LLM能力評估自身生成的內容,從而選擇最佳的生成結果,而不僅僅依賴單一生成結果或外部評估。

3. 提供LLM在推論階段的可控性,以適應不同的任務需求。

訓練資料要確保檢索網路出來的結果與想要回答的問題是有關聯且基於事實的。

訓練資料要確保檢索網路出來的結果與想要回答的問題是有關聯且基於事實的。

導入此技術帶來的好處:

研究者可以在其研究中應用SELF-RAG框架的方法,包括增強現有的語言模型,控制推論階段,提高生成內容的事實性以及應對多樣的任務輸入。同時,作者已提供相關的代碼和模型,以便研究者深入了解SELF-RAG的實現細節,重現研究結果,或者將該方法應用於自己的研究領域,以下是你預期SELF-RAG可以為你的MODEL帶來的好處。

藉由Self-RAG,回答正確率Metric評估指標,有很明顯的提升

藉由Self-RAG,回答正確率Metric評估指標,有很明顯的提升

SELF-RAG 使用限制:

雖然SELF-RAG框架具有許多優勢,但也存在一些潛在的限制,包括對檢索段落質量和相關性的依賴、仍可能存在事實錯誤或不一致性以及需要大規模訓練語料庫的挑戰。此外,對於複雜的推理或推斷性任務,可能需要更多的處理能力。

引用:

@misc{asai2023selfrag,
title={Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection},
author={Akari Asai and Zeqiu Wu and Yizhong Wang and Avirup Sil and Hannaneh Hajishirzi},
year={2023},
eprint={2310.11511},
archivePrefix={arXiv},
primaryClass={cs.CL}
}


如果你對 AI 充滿熱情,學習上又不想浪費時間,我能夠以過來人的經驗給你不少想法,歡迎在Facebook群裡面留言。

如果想要用Zoom直接交談,為你直接解惑的,也可以點以下連結預約時間 (1小時)

 https://calendly.com/universe_ai/free_appointment






avatar-img
無限智慧學院的沙龍
95會員
128內容數
帶你用上帝視角,針對市面上具有高度價值的影片/論文/書籍,用東方取象,與西方邏輯辯證的角度同時出發,跟著我一起來探討宇宙萬事萬物的本質,隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷,近期對於人工智慧,東方易經,西方辯證邏輯,還有佛法向內求有深度興趣。
留言
avatar-img
留言分享你的想法!
預計量子AI計算會在2032年左右來到,在這之前,我們還有充足的時間可以逐步去學習量子計算與演算法,讓我們按部就班,持續前進,做輕鬆無負擔的超前學習 !
介紹這次Computex的兩大主題,AI Server與AI PC,展現了台灣廠商強大的供應能力,隨處可見黃仁勳的簽名,展示了美國頂尖企業與台灣製造那層密不可分的夥伴關係,就讓我們一起來探索,這些尖端科技產品。
這次要介紹的這篇,使用Mask-LM的生成方式,可以達到最頂尖的FID/FVD分數,取得超越Diffusion Model的生成品質,並兼顧了生成速度,讓我們一起從MAGVIT開始,逐步理解到MAGVIT-V2,相信能讓對於最新影像生成領域有興趣的讀者,感到收穫滿滿。
預計量子AI計算會在2032年左右來到,在這之前,我們還有充足的時間可以逐步去學習量子計算與演算法,讓我們按部就班,持續前進,做輕鬆無負擔的超前學習 !
介紹這次Computex的兩大主題,AI Server與AI PC,展現了台灣廠商強大的供應能力,隨處可見黃仁勳的簽名,展示了美國頂尖企業與台灣製造那層密不可分的夥伴關係,就讓我們一起來探索,這些尖端科技產品。
這次要介紹的這篇,使用Mask-LM的生成方式,可以達到最頂尖的FID/FVD分數,取得超越Diffusion Model的生成品質,並兼顧了生成速度,讓我們一起從MAGVIT開始,逐步理解到MAGVIT-V2,相信能讓對於最新影像生成領域有興趣的讀者,感到收穫滿滿。
本篇參與的主題活動
先前麥克買了在預算及性能方面都十分複合需求的NXTPAPER 11平板,但拿到辦公室使用後便發現因為時不時有簡報需求,主機本身不支援有線視訊輸出實在是非常不方便,因又開始尋找新歡。最終麥克選擇了算是還滿熟悉的品牌小米旗下的小米平板6,以下為麥克這一個月下來的使用心得。
從預計的十月底出貨經過重重波折,Pubu自家開發的10寸彩色閱讀器Pubook Pro終於是送到第一批集資者手中了。究竟這台閱讀器有沒有本事撼動目前的電子紙閱讀器市場?有達到集資時承諾的各項功能嗎?且讓身為首批集資者之一的麥克跟大家談談收到主機後使用數天的感想。
Steam Deck 迎來大改版,最重要的更新就是換成 OLED 螢幕。使用 OLED 螢幕帶來更好看的顏色,大小還小幅提升到 7.4 吋。關係續航力的電池也從 40 瓦小時升級到 50 瓦小時, 3A 大作都可以多玩一小時呢!這麼香的更新,怎麼不給他買下去呢 😄
先前麥克買了在預算及性能方面都十分複合需求的NXTPAPER 11平板,但拿到辦公室使用後便發現因為時不時有簡報需求,主機本身不支援有線視訊輸出實在是非常不方便,因又開始尋找新歡。最終麥克選擇了算是還滿熟悉的品牌小米旗下的小米平板6,以下為麥克這一個月下來的使用心得。
從預計的十月底出貨經過重重波折,Pubu自家開發的10寸彩色閱讀器Pubook Pro終於是送到第一批集資者手中了。究竟這台閱讀器有沒有本事撼動目前的電子紙閱讀器市場?有達到集資時承諾的各項功能嗎?且讓身為首批集資者之一的麥克跟大家談談收到主機後使用數天的感想。
Steam Deck 迎來大改版,最重要的更新就是換成 OLED 螢幕。使用 OLED 螢幕帶來更好看的顏色,大小還小幅提升到 7.4 吋。關係續航力的電池也從 40 瓦小時升級到 50 瓦小時, 3A 大作都可以多玩一小時呢!這麼香的更新,怎麼不給他買下去呢 😄