【Hugging Face】Ep.6 解決問題的專業級破關知識家(Question Answering)

閱讀時間約 5 分鐘
圖片來源

圖片來源

QA問答是自然語言處理NLP中蠻困難的一項任務, 必須從一段文本中識別出使用者的提問,像搜尋引擎就是一種QA的應用, 從眾多的問題中找答案, 那就讓我們親手來打造一下自己專屬的QA系統吧!

找看看有哪些可用模型

在「【Hugging Face】Ep.3 前往Dataset掏金趣」我們有介紹過HuggingFace平台如何精準的找出我們需要的模型, 那這次我們要找的任務是「Question Answering」,語言為「Chinese」, 我們就來選用最多人使用的「timpal0l/mdeberta-v3-base-squad2」吧!

圖片來源

圖片來源


安裝套件

!pip install transformers

給予知識文章

這邊透過Chatgpt幫我們產生Google的基礎知識並做為問答系統的基礎知識。

context = """
Google是一家全球知名的科技公司,成立於1998年,總部位於美國加利福尼亞州的山景城。Google以其在搜尋引擎技術方面的卓越表現而聞名,早期推出的Google搜尋引擎迅速成為全球最受歡迎和廣泛使用的搜尋引擎之一。

除了搜尋引擎外,Google還開發和提供了許多其他互聯網產品和服務。其中包括谷歌地圖、谷歌郵箱(Gmail)、谷歌翻譯、谷歌雲端硬碟(Google Drive)等。此外,Google還擁有Android操作系統,該操作系統目前是全球最受歡迎的移動操作系統之一。

Google也涉足硬體領域,推出了自己的智慧型手機系列Pixel,以及Pixelbook筆記型電腦、Google Home智慧音箱等產品。此外,Google還在人工智慧(AI)和機器學習領域投入了大量資源,並推出了許多與AI相關的產品和服務,如Google Assistant智慧助理和Google Lens圖像識別技術。

除了互聯網產品和服務,Google還在廣告業務方面表現出色。其廣告平台Google Ads為廣告客戶提供了廣告投放和行銷解決方案,並通過廣告收入成為Google的主要盈利來源之一。

Google在全球範圍內擁有廣泛的影響力和使用者基礎。其創始人之一拉里·佩奇(Larry Page)和謝爾蓋·布林(Sergey Brin)一直是科技行業的知名人物,Google也是全球最具價值的品牌之一。公司在全球各地設有辦事處和數據中心,員工遍布世界各地。

Google一直秉持著使訊息普遍可用和受人們歡迎的使命,致力於提供高質量的產品和服務,並不斷推動科技的創新和發展。
"""

打造QA任務機器人

這邊我們選用timpal0l/mdeberta-v3-base-squad2這個模型進行任務。

from transformers import pipeline, AutoTokenizer, AutoModelForQuestionAnswering
tokenizer = AutoTokenizer.from_pretrained("timpal0l/mdeberta-v3-base-squad2")
model = AutoModelForQuestionAnswering.from_pretrained("timpal0l/mdeberta-v3-base-squad2")
qa = pipeline("question-answering", model=model, tokenizer=tokenizer)

問與答

回答雖然不盡完美, 但已經能夠精確的理解我們的問題並給予接近正確的回答, 見到如此成效, 對於商業嗅覺敏感的朋友來說, 或許已經想到要如何打造一個知識庫問答機器人了吧!

後面的章節也會介紹如何自行訓練私有資料庫,並真正的打造私有的專屬問答知識家。

今天的範例都在這裡「📦huggingface/huggingface_qa.ipynb」歡迎自行取用。

如何使用請參閱「【Google Colab系列】台股分析預備式: Colab平台與Python如何擦出火花?」。

結語

藉由Hugging Face平台, 我們可以親手打造各式各樣的AI機器人, 上面也已經有許多前輩分享的模型可供使用, 對於我們來說只要站在巨人的肩膀上即可, 也期望有朝一日我們也能訓練出對這世界更有幫助的AI模型。

喜歡撰寫文章的你,不妨來了解一下:

Web3.0時代下為創作者、閱讀者打造的專屬共贏平台 - 為什麼要加入?

歡迎加入一起練習寫作,賺取知識!


更多關於【Hugging Face 系列】…

avatar-img
117會員
262內容數
哈囉,我是阿Han,是一位 👩‍💻 軟體研發工程師,喜歡閱讀、學習、撰寫文章及教學,擅長以圖代文,化繁為簡,除了幫助自己釐清思路之外,也希望藉由圖解的方式幫助大家共同學習,甚至手把手帶您設計出高品質的軟體產品。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
阿Han的沙龍 的其他內容
這次來介紹一下NLP自然語言處理中重要的一個任務「命名實體識別(Named Entity Recognition)」, 這個任務主要識別出「人名」、「地名」、「公司」…等實體, 透過這些實體辨識結果, 可以近一步的理解意圖, 甚至判斷出該文章主要在講什麼重點…等。 關於更多NER的細節歡迎閱讀: 「
前面我們介紹了「【Hugging Face】Ep.1 平凡人也能玩的起的AI平台」, 我們都知道「詞」是NLP世界中的最小單元, 關於詞的知識歡迎參考: 簡單來說,主要的目的是將文本轉換為模型可以處理的數據, But…, 他主要的任務並不是像jieba…等斷詞器一樣, 而是很單純的扮演文字與模型的橋
Part-of-Speech Tagging, POS是詞性標注的全名, 主要為詞彙標上語言中的語法類別或用途, 再進行後續的分析與處理, 就想像成文件歸檔的動作, 每個文件貼上一個標籤類別, 而透過這些標籤類別進行關聯性的分類歸檔。 一個句子最基本的組成單位是「詞」這在我們之前幾個篇章都有談過,如
我們有想過嗎? 一句簡單的話語, 竟然隱含著豐富的句法結構與規則, 而句法就是依著這樣的規則組合而成, 形成一個完整的句子, 隨著資料量越大, 透過規則與關聯性, 機器就能夠根據我們的話語進行拆解, 並試圖理解我們的意圖進行更貼心的服務, 隨著Chatgpt的興起, 我們也見證到AI的新里程碑, 資
上一篇「【Hugging Face】Ep.2 初探新手村, 打造專屬的翻譯官」我們學習到如何架設起Hugging Face的環境了,接下來我們就介紹一下重要的Datasets吧! AI模型訓練最重要的燃料就是「資料」了, 而HuggingFace的Dataset也公開了不少的資料集, 非常適合我們進
我們已經介紹過關於Transformer模型的平台「【Hugging Face】Ep.1 平凡人也能玩的起的AI平台」,而這次就來實際動手進行開發,讓我們自己的AI自己做。 由於AI模型的訓練往往都會比較耗時, 因此建議需要有GPU環境會比較有效率一些, 否則訓練模行動輒好幾個小時才能看到結果, 一
這次來介紹一下NLP自然語言處理中重要的一個任務「命名實體識別(Named Entity Recognition)」, 這個任務主要識別出「人名」、「地名」、「公司」…等實體, 透過這些實體辨識結果, 可以近一步的理解意圖, 甚至判斷出該文章主要在講什麼重點…等。 關於更多NER的細節歡迎閱讀: 「
前面我們介紹了「【Hugging Face】Ep.1 平凡人也能玩的起的AI平台」, 我們都知道「詞」是NLP世界中的最小單元, 關於詞的知識歡迎參考: 簡單來說,主要的目的是將文本轉換為模型可以處理的數據, But…, 他主要的任務並不是像jieba…等斷詞器一樣, 而是很單純的扮演文字與模型的橋
Part-of-Speech Tagging, POS是詞性標注的全名, 主要為詞彙標上語言中的語法類別或用途, 再進行後續的分析與處理, 就想像成文件歸檔的動作, 每個文件貼上一個標籤類別, 而透過這些標籤類別進行關聯性的分類歸檔。 一個句子最基本的組成單位是「詞」這在我們之前幾個篇章都有談過,如
我們有想過嗎? 一句簡單的話語, 竟然隱含著豐富的句法結構與規則, 而句法就是依著這樣的規則組合而成, 形成一個完整的句子, 隨著資料量越大, 透過規則與關聯性, 機器就能夠根據我們的話語進行拆解, 並試圖理解我們的意圖進行更貼心的服務, 隨著Chatgpt的興起, 我們也見證到AI的新里程碑, 資
上一篇「【Hugging Face】Ep.2 初探新手村, 打造專屬的翻譯官」我們學習到如何架設起Hugging Face的環境了,接下來我們就介紹一下重要的Datasets吧! AI模型訓練最重要的燃料就是「資料」了, 而HuggingFace的Dataset也公開了不少的資料集, 非常適合我們進
我們已經介紹過關於Transformer模型的平台「【Hugging Face】Ep.1 平凡人也能玩的起的AI平台」,而這次就來實際動手進行開發,讓我們自己的AI自己做。 由於AI模型的訓練往往都會比較耗時, 因此建議需要有GPU環境會比較有效率一些, 否則訓練模行動輒好幾個小時才能看到結果, 一
本篇參與的主題活動
在生成式AI與大型語言模型(Large Language Model, LLM)蓬勃發展下,有許多工具可以幫助我們學習與撰寫程式,這篇文章提供了實作範例與一些經驗,分享如何使用ChatGPT(免費的GPT-3.5)協助程式語言的學習,並且完成屬於自己的程式。
前幾個禮拜,AWS 舉行 Startup Day Taiwan。想當然爾,最熱門的主題非生成式 AI (Generative AI) 莫屬。既然 AWS 有現成的工具,身為一名工程師,自然看看無妨,這篇文章算是新手開箱文,會說明如何部署一套基礎模型,並使用 AWS SDK 與其互動。
前言 我在工作中沒有什麼機會接觸到機器學習,學生時期也沒有學習過相關知識。 作為一個業餘小白,我對機器學習非常感興趣。在自學的過程中,我逐漸意識到利用機器學習可以做很多有趣的事情。 因此,我決定嘗試使用 AWS SageMaker JumpStart 來實驗文字生成式繪圖 AI ,以了解機
最近玩到了一個我覺得很新奇有趣的軟體,叫做SillyTavern。 SillyTavern是專用於創建虛擬角色的AI聊天軟體,SillyTavern是TavernAI的分支,但SillyTavern走上了自己的路,加進了許多額外功能,並且仍在積極的持續更新中。 然後,可以色色!
「Prompt」這個詞是提示的意思,但為什麼需要提示呢? 當AI不理解我們的時候,勢必給出的回應並非準確的為我們解答,因此一個好的提示是非常重要的,就如同我們人與人之間的溝通一樣,如何將自己心裡的疑惑轉化成好的問題來提問對方,讓對方理解,進而給出一個明確的答案,這就是提示(Prompt)的重要性,對
在生成式AI與大型語言模型(Large Language Model, LLM)蓬勃發展下,有許多工具可以幫助我們學習與撰寫程式,這篇文章提供了實作範例與一些經驗,分享如何使用ChatGPT(免費的GPT-3.5)協助程式語言的學習,並且完成屬於自己的程式。
前幾個禮拜,AWS 舉行 Startup Day Taiwan。想當然爾,最熱門的主題非生成式 AI (Generative AI) 莫屬。既然 AWS 有現成的工具,身為一名工程師,自然看看無妨,這篇文章算是新手開箱文,會說明如何部署一套基礎模型,並使用 AWS SDK 與其互動。
前言 我在工作中沒有什麼機會接觸到機器學習,學生時期也沒有學習過相關知識。 作為一個業餘小白,我對機器學習非常感興趣。在自學的過程中,我逐漸意識到利用機器學習可以做很多有趣的事情。 因此,我決定嘗試使用 AWS SageMaker JumpStart 來實驗文字生成式繪圖 AI ,以了解機
最近玩到了一個我覺得很新奇有趣的軟體,叫做SillyTavern。 SillyTavern是專用於創建虛擬角色的AI聊天軟體,SillyTavern是TavernAI的分支,但SillyTavern走上了自己的路,加進了許多額外功能,並且仍在積極的持續更新中。 然後,可以色色!
「Prompt」這個詞是提示的意思,但為什麼需要提示呢? 當AI不理解我們的時候,勢必給出的回應並非準確的為我們解答,因此一個好的提示是非常重要的,就如同我們人與人之間的溝通一樣,如何將自己心裡的疑惑轉化成好的問題來提問對方,讓對方理解,進而給出一個明確的答案,這就是提示(Prompt)的重要性,對
你可能也想看
Google News 追蹤
Thumbnail
SearchGPT 是由 OpenAI 開發的 AI 驅動搜尋引擎,結合了傳統搜尋引擎技術和最新的 AI 技術,能即時從互聯網獲取資訊。它與其他搜尋引擎相比,提供更相關的搜尋結果、更豐富的結果呈現、更快的速度和更好的生態合作基礎建設。
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
Hi 我是 VK~ NVIDIA 執行長黃仁勳在今年 2 月《連線》雜誌採訪時透露,「我一直在用 Perplexity,不過也很喜歡 ChatGPT,我幾乎每天都會使用這兩款 AI 工具。」 這期來聊聊 AI 新創 Perplexity 他們的成立故事,並聚焦在: 為什麼 Perplexity
Thumbnail
Perplexity AI 是一款使用 GPT 模型的人工智慧搜尋引擎,提供即時、準確且廣泛的網路搜尋服務,根據用戶提問自動篩選和整理相關資料,並附上參考來源連結。
工欲善其事,必先利其器,要打造屬於自己的Chat GPT之前,我們先學習怎麼建立Google免費提供的Colab環境,它可以免費使用GPU來加速AI的運算,非常適合沒有錢添購GPU,但又想學習前沿AI技術的人。 第一步:打開Google瀏覽器,並點選右上方的「方格子點點」,接著選擇「雲端硬碟」
第一步先在Python環境中安裝本次專案需要用到的Library,相關指令如下: !pip install accelerate==0.21.0 !pip install transformers==4.31.0 !pip install tokenizers==0.13.3 !pip insta
Thumbnail
人工智慧(AI)已成為社會流行語,尤其是近年來ChatGPT等先進人工智慧平台受到廣泛關注。然而,即使在人工智慧成為家喻戶曉的術語之前,它就已經透過 Google Ads 等平台嵌入到數位行銷策略的結構中。例如:AI廣告投手。 谷歌一直是利用人工智慧改變廣告格局的先驅,利用機器學習和自動化幫助企業
Thumbnail
生成式AI對搜尋方式帶來了革新, ChatGPT、Gemini和perplexity都是一些值得關注的工具。生成式AI提供參考來源,讓使用者可以查證回覆內容,並提供相關的資訊與建議。在研究與創作時,透過持續對話,AI也可以成為有效率的參考夥伴。對於教學創作也有很好的應用。
Thumbnail
隨著AI板塊的爆發,各大科技巨頭之間的競爭愈發激烈。尤其是Google與微軟這兩個搜尋引擎的老對手,都想借AI的東風,升級各自的科技服務。微軟背後有OpenAI的ChatGPT技術加持,始終壓Google一頭。
Thumbnail
本文章介紹瞭如何使用AutoGPT, 一種可以自主蒐集資料生成訴求,幫你與ChatGPT在互動中提出一連串的問題,來解決你的問題。對於安裝時的常見問題也進行了解答,並提供了使用的步驟以及目前的解決方式。
Thumbnail
SearchGPT 是由 OpenAI 開發的 AI 驅動搜尋引擎,結合了傳統搜尋引擎技術和最新的 AI 技術,能即時從互聯網獲取資訊。它與其他搜尋引擎相比,提供更相關的搜尋結果、更豐富的結果呈現、更快的速度和更好的生態合作基礎建設。
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
Hi 我是 VK~ NVIDIA 執行長黃仁勳在今年 2 月《連線》雜誌採訪時透露,「我一直在用 Perplexity,不過也很喜歡 ChatGPT,我幾乎每天都會使用這兩款 AI 工具。」 這期來聊聊 AI 新創 Perplexity 他們的成立故事,並聚焦在: 為什麼 Perplexity
Thumbnail
Perplexity AI 是一款使用 GPT 模型的人工智慧搜尋引擎,提供即時、準確且廣泛的網路搜尋服務,根據用戶提問自動篩選和整理相關資料,並附上參考來源連結。
工欲善其事,必先利其器,要打造屬於自己的Chat GPT之前,我們先學習怎麼建立Google免費提供的Colab環境,它可以免費使用GPU來加速AI的運算,非常適合沒有錢添購GPU,但又想學習前沿AI技術的人。 第一步:打開Google瀏覽器,並點選右上方的「方格子點點」,接著選擇「雲端硬碟」
第一步先在Python環境中安裝本次專案需要用到的Library,相關指令如下: !pip install accelerate==0.21.0 !pip install transformers==4.31.0 !pip install tokenizers==0.13.3 !pip insta
Thumbnail
人工智慧(AI)已成為社會流行語,尤其是近年來ChatGPT等先進人工智慧平台受到廣泛關注。然而,即使在人工智慧成為家喻戶曉的術語之前,它就已經透過 Google Ads 等平台嵌入到數位行銷策略的結構中。例如:AI廣告投手。 谷歌一直是利用人工智慧改變廣告格局的先驅,利用機器學習和自動化幫助企業
Thumbnail
生成式AI對搜尋方式帶來了革新, ChatGPT、Gemini和perplexity都是一些值得關注的工具。生成式AI提供參考來源,讓使用者可以查證回覆內容,並提供相關的資訊與建議。在研究與創作時,透過持續對話,AI也可以成為有效率的參考夥伴。對於教學創作也有很好的應用。
Thumbnail
隨著AI板塊的爆發,各大科技巨頭之間的競爭愈發激烈。尤其是Google與微軟這兩個搜尋引擎的老對手,都想借AI的東風,升級各自的科技服務。微軟背後有OpenAI的ChatGPT技術加持,始終壓Google一頭。
Thumbnail
本文章介紹瞭如何使用AutoGPT, 一種可以自主蒐集資料生成訴求,幫你與ChatGPT在互動中提出一連串的問題,來解決你的問題。對於安裝時的常見問題也進行了解答,並提供了使用的步驟以及目前的解決方式。