ChatGPT 系列文(一): AI,請你成為人類

更新於 發佈於 閱讀時間約 5 分鐘
raw-image

ChatGPT剛推出時,我們辦公室討論紛紛,我馬上去玩了一下。當時心態很惡搞,詢問GPT什麼是蜥蜴人、女王是不是蜥蜴人 ﹝註:蜥蜴人是在都市傳說中常被提到的外星生物﹞。他的回答都說蜥蜴人只是一種虛構生物。好吧,我想這大抵符合人類的認知!

隔了幾天,我又去問GPT,什麼是蜥蜴人,他竟然告訴我,他不知道什麼是蜥蜴人。這風向驟變,不禁懷疑他是被重train﹝重新訓練﹞了嗎?

我想確定他是否有懂我,於是又再問他「祖克伯是誰」,他竟然說,不知道祖克伯是誰。用Mark Zuckerberg取代祖克伯再問,結果亦然。真的很困惑。到底他們拿什麼文本來訓練GPT?


我的入門語言模型 (很弱的那種)

ChatGPT說,他自己是個語意模型,也就是說,他是一個使用自然語言處理技術﹝Natural Language Processing, 下稱NLP﹞,所訓練出來的模型。這種技術讓電腦可以解譯和操作人類的語言,無疑是個大坑。

但很遺憾,自己不常使用NLP技術,記憶停留在很入門的程度。不過呢,我過年時還是趁著ChatGPT熱潮,手癢玩了一些自然語言的模型。

當時用n-gram為基的馬可夫鏈 (Markov Chain)生成器,以對字詞進行預測,使其能串字成句,句能成章。馬可夫鏈的統計機制,就足夠我們生成虛構短文。如果學習的語料庫是BBC新聞,那他就能依此生成新聞段落。

結果如下:

raw-image
Google給的翻譯是:開往伊斯肯德倫設施的船隻位於地震上方升起的濃煙西南約 70 英里 112 公里處,
船運公司 ap moller maersk 稱港口受損

不管你英文好不好,應該能感覺東西是在瞎扯,而且老實說不太好玩。畢竟我沒有把模型設定的太複雜﹝2-gram﹞,語料也少﹝165字新聞﹞,所以其產出結果跟真正的自然語言、或ChatGPT之間有著巨大落差。


GPT,請你像個人類

不只如此,用以改善語意模型的架構﹝見Transformer架構﹞,在這五六年間有著天翻地覆的突破。ChatGPT也在此基礎上開發進展。

所幸,不少影片和文章將我引入了GPT的大門。除了訓練用語料,影響輸出結果的因素主要是兩個,一個是機率,一個是人類的喜好/習慣。首先,每個文字的輸出,服從一個從資料中所學來的機率分布。這個字之所以接續前一個字出現,形成字字接龍,背後就根據從該分布進行的隨機取樣。這也是為什麼,他的回答每次可能有些不同。

再者,人類的語言習性在GPT框架中扮演重要腳色,決定了語意模型能否照著人類預期與能理解方式做回答。這是模型學習的目標,更是定量學習好壞的判準。故模型不能純粹順從語料庫學來的訊息,去生成回應。李宏毅教授的影片說得清楚──當我問世界上最高的山是哪座,模型必須回答真正的答案,不能反問說:那世上最深的海又在哪裡呢?

也就是說,GPT不單單只是學了一大堆語料,變成優秀的接話仔﹝文字接龍﹞;而是以人類語意與反饋為學習目標,強化自己的應答。這正如他的一個通用名所示:Reinforcement Learning from Human Feedback,意旨其模型框架,加入了一種叫做強化學習﹝Reinforcement Learning﹞的訓練方式。

在GPT,被獎勵的目標,是作出和人類對語意理解相似的文字/語意生成。這讓機器不純粹依著既有資料的模式,優化並生成預測;反而讓機器有更強的能力,去因應不同環境﹝狀態﹞,作出最優的選擇與回應 。這大大突破統計方法﹝statistical approaches,如前述n-gram馬可夫鍊﹞的限制。


小結尾

回顧自己跟NLP之間,緣分實在甚淺。我所應用的範疇,大多是量化市場情緒,判別更加即時的市場情緒,以在彌補市場消息面上,量化數據之不足。

這是說,基於領域專業,以人工的方式針對新聞的情緒做標籤,讓演算法知道新聞語料對應到哪類市場情緒﹝如正向、恐懼或貪婪等﹞,用以預測未來新聞中的隱含情緒。若非微調﹝fine tune﹞自然語言模型,純粹用機器學習模型﹝如SVM或隨機森林﹞,也都有不錯的預測效果。

而今GPT已歷經GPT-1 ~ GPT3.5,其框架改變似乎不大,明顯差異在參數量巨幅增加。但這也是他被領域專家詬病為不夠創新的一因。可是以一個成為通用語言模型而生的應用,算是一個優異的存在。別說ChatGPT,光是GPT-2,就有人用他寫金庸小說!該作者讓他學習14部金庸小說,最後虛構出了脈絡完整、人物關係沒有混淆的金庸情節。

不過,雖然無法回答我蜥蜴人的問題,但ChatGPT現在是我的超級戰友。我用他來幫我生成文章段落和寫程式。

未完,見後續......。




留言
avatar-img
留言分享你的想法!
avatar-img
Darren的沙龍
14會員
14內容數
大數據意味著什麼?數據科學背後有怎樣的mind set和技術?數據科學家又做些什麼?這些科技/技術,帶給我們什麼生活上和人文上的省思?這個專題會橫跨這些彼此相關的面向,避開生澀的專業詞彙,探索這些事情背後的樣貌。應該會是有趣的知識和想法分享﹝笑﹞
Darren的沙龍的其他內容
2024/08/31
文章主攻四大領域:機率與統計、計量經濟和量化金融分析。以機率統計為核心主幹,詳加說明其精神與應用。也會輔以其餘三個領域的介紹作為統計實例。統計學是AI / 機器學習背後的英雄,假設檢定與統計分布是其兩大特色,前者找出彼此相互關聯的變數;後者則幫助我們進行模擬和抽樣,幫助我們找尋最優解或近似真實值。
Thumbnail
2024/08/31
文章主攻四大領域:機率與統計、計量經濟和量化金融分析。以機率統計為核心主幹,詳加說明其精神與應用。也會輔以其餘三個領域的介紹作為統計實例。統計學是AI / 機器學習背後的英雄,假設檢定與統計分布是其兩大特色,前者找出彼此相互關聯的變數;後者則幫助我們進行模擬和抽樣,幫助我們找尋最優解或近似真實值。
Thumbnail
2024/07/19
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
2024/07/19
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
2024/07/05
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
2024/07/05
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
看更多
你可能也想看
Thumbnail
孩子寫功課時瞇眼?小心近視!這款喜光全光譜TIONE⁺光健康智慧檯燈,獲眼科院長推薦,網路好評不斷!全光譜LED、180cm大照明範圍、5段亮度及色溫調整、350度萬向旋轉,讓孩子學習更舒適、保護眼睛!
Thumbnail
孩子寫功課時瞇眼?小心近視!這款喜光全光譜TIONE⁺光健康智慧檯燈,獲眼科院長推薦,網路好評不斷!全光譜LED、180cm大照明範圍、5段亮度及色溫調整、350度萬向旋轉,讓孩子學習更舒適、保護眼睛!
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
這篇文章介紹了ChatGPT,一種大型的語言模型,能以自然語言回答問題,但不透過搜尋罐頭文字或網路內容。其核心技術是自監督式學習,通過大量的網路資料進行訓練,讓模型能進行文字接龍。儘管GPT系列經歷了多次演進,並需用大量的訓練資料,它的問答能力仍有待提升。然而,透過不斷優化,我們已有了更進一步的版本
Thumbnail
這篇文章介紹了ChatGPT,一種大型的語言模型,能以自然語言回答問題,但不透過搜尋罐頭文字或網路內容。其核心技術是自監督式學習,通過大量的網路資料進行訓練,讓模型能進行文字接龍。儘管GPT系列經歷了多次演進,並需用大量的訓練資料,它的問答能力仍有待提升。然而,透過不斷優化,我們已有了更進一步的版本
Thumbnail
[進行中未完成] 1.簡介 本文旨在讓沒有計算機科學背景的人對ChatGPT和類似的人工智能系統 (如GPT-3、GPT-4、Bing Chat、Bard等)有一些了解。 ChatGPT是一種聊天機器人,是建立在大型語言模型之上的對話型人工智能。專業術語可能會讓人感到陌生,但此文將一一解釋這些概念。
Thumbnail
[進行中未完成] 1.簡介 本文旨在讓沒有計算機科學背景的人對ChatGPT和類似的人工智能系統 (如GPT-3、GPT-4、Bing Chat、Bard等)有一些了解。 ChatGPT是一種聊天機器人,是建立在大型語言模型之上的對話型人工智能。專業術語可能會讓人感到陌生,但此文將一一解釋這些概念。
Thumbnail
ChatGPT 是一款基於 GPT 技術的自然語言處理工具。那 GPT 是什麼呢?GPT 指的是 Generative Pre-trained Transformer,它是一種神經網絡模型,能夠處理自然語言的文本數據,學習文本之間的關聯,並且能夠根據這些關聯自動生成新的文本。ChatGPT 正是利用
Thumbnail
ChatGPT 是一款基於 GPT 技術的自然語言處理工具。那 GPT 是什麼呢?GPT 指的是 Generative Pre-trained Transformer,它是一種神經網絡模型,能夠處理自然語言的文本數據,學習文本之間的關聯,並且能夠根據這些關聯自動生成新的文本。ChatGPT 正是利用
Thumbnail
晚安我是山羊,   最近打開社群軟體時,常看到關於ChatGPT的新聞、使用心得分享。雖然我未使用過,但近期遇到一件與ChatGPT有關的小故事,讓我對AI與人類之間的立場、關聯產生了疑惑,因此想來分享我的看法。
Thumbnail
晚安我是山羊,   最近打開社群軟體時,常看到關於ChatGPT的新聞、使用心得分享。雖然我未使用過,但近期遇到一件與ChatGPT有關的小故事,讓我對AI與人類之間的立場、關聯產生了疑惑,因此想來分享我的看法。
Thumbnail
這篇文放草稿太久了,放到連GPT4都生出來了。不過沒差,內容通用。 在系列文第一篇,就提到了GPT框架中有對人類語意回饋的學習機制。這機制有個專有名詞,叫強化學習 (Reinforcement Learning)。這讓機器不純粹依著既有資料模式,優化並生成預測;反而讓機器有更強的能力,去因應不同環境
Thumbnail
這篇文放草稿太久了,放到連GPT4都生出來了。不過沒差,內容通用。 在系列文第一篇,就提到了GPT框架中有對人類語意回饋的學習機制。這機制有個專有名詞,叫強化學習 (Reinforcement Learning)。這讓機器不純粹依著既有資料模式,優化並生成預測;反而讓機器有更強的能力,去因應不同環境
Thumbnail
最近最火的話題肯定是Chatgpt了,不蹭它一波真的太可惜。 ​不過雖然說是蹭、我堂堂NLP心理學平台、又不是程式設計、或是什麼研究人工智能的帳號,這該怎麼蹭?從何蹭起? ​這邊會以NLP四大導師、心智生態學的Gregory Bateson的後設認知觀點,來切入探討。 ​
Thumbnail
最近最火的話題肯定是Chatgpt了,不蹭它一波真的太可惜。 ​不過雖然說是蹭、我堂堂NLP心理學平台、又不是程式設計、或是什麼研究人工智能的帳號,這該怎麼蹭?從何蹭起? ​這邊會以NLP四大導師、心智生態學的Gregory Bateson的後設認知觀點,來切入探討。 ​
Thumbnail
ChatGPT剛推出時,我們辦公室討論紛紛,我馬上去玩了一下。當時心態很惡搞,詢問GPT什麼是蜥蜴人、女王是不是蜥蜴人 ﹝註:蜥蜴人是在都市傳說中常被提到的外星生物﹞。他的回答都說蜥蜴人只是一種虛構生物。好吧,我想這大抵符合人類的認知! 隔了幾天,我又去問GPT,什麼是蜥蜴人,他竟然告訴我,他不知道
Thumbnail
ChatGPT剛推出時,我們辦公室討論紛紛,我馬上去玩了一下。當時心態很惡搞,詢問GPT什麼是蜥蜴人、女王是不是蜥蜴人 ﹝註:蜥蜴人是在都市傳說中常被提到的外星生物﹞。他的回答都說蜥蜴人只是一種虛構生物。好吧,我想這大抵符合人類的認知! 隔了幾天,我又去問GPT,什麼是蜥蜴人,他竟然告訴我,他不知道
Thumbnail
2021年10月28日全球在夯Meta創辦人佐克伯口中的「元宇宙」;2022年11月30日全球改吹另一風潮──ChatGPT。短短五天內使用人數突破百萬人,曾被微軟挹注十億美元,如今又加碼100億美元的ChatGPT,到底有何魅力?能如此快速的打破國界、突破同溫層,迅速風行各行各業呢?
Thumbnail
2021年10月28日全球在夯Meta創辦人佐克伯口中的「元宇宙」;2022年11月30日全球改吹另一風潮──ChatGPT。短短五天內使用人數突破百萬人,曾被微軟挹注十億美元,如今又加碼100億美元的ChatGPT,到底有何魅力?能如此快速的打破國界、突破同溫層,迅速風行各行各業呢?
Thumbnail
相信這個大家最近都有看到新聞,就是OepnAI這個基金會提出了一個新的AI模型ChatGPT,這個ChatGPT跟以往的AI模型不太一樣,基本上輸入很多問題都可以獲得解答,而且回答得語氣跟人類很像。 同時這個ChatGPT很厲害的事情,包含可以產出程式、幫助回覆程式問題、產出行銷文案、演講大綱等等,
Thumbnail
相信這個大家最近都有看到新聞,就是OepnAI這個基金會提出了一個新的AI模型ChatGPT,這個ChatGPT跟以往的AI模型不太一樣,基本上輸入很多問題都可以獲得解答,而且回答得語氣跟人類很像。 同時這個ChatGPT很厲害的事情,包含可以產出程式、幫助回覆程式問題、產出行銷文案、演講大綱等等,
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News