ChatGPT 系列文(一): AI,請你成為人類

閱讀時間約 4 分鐘
ChatGPT剛推出時,我們辦公室討論紛紛,我馬上去玩了一下。當時心態很惡搞,詢問GPT什麼是蜥蜴人、女王是不是蜥蜴人 ﹝註:蜥蜴人是在都市傳說中常被提到的外星生物﹞。他的回答都說蜥蜴人只是一種虛構生物。好吧,我想這大抵符合人類的認知!
隔了幾天,我又去問GPT,什麼是蜥蜴人,他竟然告訴我,他不知道什麼是蜥蜴人。這風向驟變,不禁懷疑他是被重train﹝重新訓練﹞了嗎?
我想確定他是否有懂我,於是又再問他「祖克伯是誰」,他竟然說,不知道祖克伯是誰。用Mark Zuckerberg取代祖克伯再問,結果亦然。真的很困惑。到底他們拿什麼文本來訓練GPT?

我的入門語言模型 (很弱的那種)

ChatGPT說,他自己是個語意模型,也就是說,他是一個使用自然語言處理技術﹝Natural Language Processing, 下稱NLP﹞,所訓練出來的模型。這種技術讓電腦可以解譯和操作人類的語言,無疑是個大坑。
但很遺憾,自己不常使用NLP技術,記憶停留在很入門的程度。不過呢,我過年時還是趁著ChatGPT熱潮,手癢玩了一些自然語言的模型。
當時用n-gram為基的馬可夫鏈 (Markov Chain)生成器,以對字詞進行預測,使其能串字成句,句能成章。馬可夫鏈的統計機制,就足夠我們生成虛構短文。如果學習的語料庫是BBC新聞,那他就能依此生成新聞段落。
結果如下:
我用2-gram 馬可夫鍊,丟入一段BBC NEWS關於土耳其地震的新聞,讓此模型生成後續段落。看來語焉不詳。
Google給的翻譯是:開往伊斯肯德倫設施的船隻位於地震上方升起的濃煙西南約 70 英里 112 公里處,
船運公司 ap moller maersk 稱港口受損
不管你英文好不好,應該能感覺東西是在瞎扯,而且老實說不太好玩。畢竟我沒有把模型設定的太複雜﹝2-gram﹞,語料也少﹝165字新聞﹞,所以其產出結果跟真正的自然語言、或ChatGPT之間有著巨大落差。

GPT,請你像個人類

不只如此,用以改善語意模型的架構﹝見Transformer架構﹞,在這五六年間有著天翻地覆的突破。ChatGPT也在此基礎上開發進展。
所幸,不少影片和文章將我引入了GPT的大門。除了訓練用語料,影響輸出結果的因素主要是兩個,一個是機率,一個是人類的喜好/習慣。首先,每個文字的輸出,服從一個從資料中所學來的機率分布。這個字之所以接續前一個字出現,形成字字接龍,背後就根據從該分布進行的隨機取樣。這也是為什麼,他的回答每次可能有些不同。
再者,人類的語言習性在GPT框架中扮演重要腳色,決定了語意模型能否照著人類預期與能理解方式做回答。這是模型學習的目標,更是定量學習好壞的判準。故模型不能純粹順從語料庫學來的訊息,去生成回應。李宏毅教授的影片說得清楚──當我問世界上最高的山是哪座,模型必須回答真正的答案,不能反問說:那世上最深的海又在哪裡呢?
也就是說,GPT不單單只是學了一大堆語料,變成優秀的接話仔﹝文字接龍﹞;而是以人類語意與反饋為學習目標,強化自己的應答。這正如他的一個通用名所示:Reinforcement Learning from Human Feedback,意旨其模型框架,加入了一種叫做強化學習﹝Reinforcement Learning﹞的訓練方式。
在GPT,被獎勵的目標,是作出和人類對語意理解相似的文字/語意生成。這讓機器不純粹依著既有資料的模式,優化並生成預測;反而讓機器有更強的能力,去因應不同環境﹝狀態﹞,作出最優的選擇與回應 。這大大突破統計方法﹝statistical approaches,如前述n-gram馬可夫鍊﹞的限制。

小結尾

回顧自己跟NLP之間,緣分實在甚淺。我所應用的範疇,大多是量化市場情緒,判別更加即時的市場情緒,以在彌補市場消息面上,量化數據之不足。
這是說,基於領域專業,以人工的方式針對新聞的情緒做標籤,讓演算法知道新聞語料對應到哪類市場情緒﹝如正向、恐懼或貪婪等﹞,用以預測未來新聞中的隱含情緒。若非微調﹝fine tune﹞自然語言模型,純粹用機器學習模型﹝如SVM或隨機森林﹞,也都有不錯的預測效果。
而今GPT已歷經GPT-1 ~ GPT3.5,其框架改變似乎不大,明顯差異在參數量巨幅增加。但這也是他被領域專家詬病為不夠創新的一因。可是以一個成為通用語言模型而生的應用,算是一個優異的存在。別說ChatGPT,光是GPT-2,就有人用他寫金庸小說!該作者讓他學習14部金庸小說,最後虛構出了脈絡完整、人物關係沒有混淆的金庸情節。
不過,雖然無法回答我蜥蜴人的問題,但ChatGPT現在是我的超級戰友。我用他來幫我生成文章段落和寫程式。
未完,見後續......。
13會員
13Content count
大數據意味著什麼?數據科學背後有怎樣的mind set和技術?數據科學家又做些什麼?這些科技/技術,帶給我們什麼生活上和人文上的省思?這個專題會橫跨這些彼此相關的面向,避開生澀的專業詞彙,探索這些事情背後的樣貌。應該會是有趣的知識和想法分享﹝笑﹞
留言0
查看全部
發表第一個留言支持創作者!
你可能也想看
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
今天在thread上看到有人說,AI的塔羅牌占卜跟她去外面的塔羅店說的差不多。 我就很好奇,於是我就自己在剛才,請GPT幫我塔羅占卜一下。 真的太驚訝了,答案居然有八成準,而且是跟我自己看紫微斗數命盤非常吻合。這真的要記錄一下。同時,也是我生平第一次算塔羅,就是請GPT幫我算
Thumbnail
https://play.google.com/store/books/details?id=IDMNEQAAQBAJ 佩佩在2020年就想寫信問梭羅 佩佩在2020年,就想寫信問梭羅大師一些關於他著作中所提到的思想、哲學。經過十九世紀到現在的二十一世紀時間的變革,有許多的思想,在梭羅當時的
Thumbnail
本文是即將推出的重磅教學文〈想要讓ChatGPT配合畫圖,你該具備的仍然是召喚師的四大能力〉的熱身,先解答幾個常被問到的ChatGPT圖片生成問題,同時分享我生成超過1000張「虛擬情人美女圖」所發現的幾個小密技。 ⛩需不需要使用「英文」下圖片生成指令? ⛩一定要在GPT4「客製化」模式(Crea
重點摘要: 這裡是關於ChatGPT的AI Innovation Talk的內容摘要: 1. ChatGPT是一個訊息處理器,不是聊天機器人,要先正確認知它的能力邊界。它擅長總結、推論、轉換和擴寫。 2. 使用ChatGPT時要明確具體,可以使用分隔符號等提高明確度,也可以拆解步驟讓它逐
Thumbnail
前幾日 Twitter 社群中許多人轉傳一篇發表在 arxiv 的論文預印本(preprint),提及 ChatGPT 隨著時間可能產生了變化,甚至人們稱此篇貼文指出「GPT-4」似乎表現越來越差!儘管隨即被許多人相繼駁斥,此篇研究並沒有提出任何關於 GPT-4 效能變差的結論。
Thumbnail
學生使用Chat GPT就是偷懶嗎? 這篇文章不但要求Chat GPT挑戰112年學測英文作文,同時要求他評分、批改、改寫、教學,甚至寫範文,評價自己寫的範文,這些挑戰他都能做到嗎? 當AI的能力已經可以取代人類的智力,該做的是利用他,還是禁止他?
Thumbnail
請ChatGPT創造了三篇小故事。「AI機器人大衛與小恐龍」「AI人工智能vs.人類存亡之戰」 「沒有感情的吃薯條機器」
Thumbnail
ChatGPT是一個可以幫助您利用自然語言處理和機器學習技術來開發、部署和維護聊天機器人的平台。它可以讓您使用自己的資料和模型,ChatGPT可以幫助你在部落格上賺取收入,讓您可以更輕鬆地寫出有價值的文章。 ChatGPT可以根據你給定的概念或主題,提供詞彙和提示,幫助你更快速地開發優秀的內容。此
Thumbnail
OpenAI 已經意識到有關ChatGPT 的抄襲行為,因此推出 AI Text Classifier 以區分文本是AI 或是人類編寫的。本文將介紹如何使用AI Text Classifier檢測文本,並詮釋其產生的檢測結果,最後解釋該工具準確性和限制。
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
今天在thread上看到有人說,AI的塔羅牌占卜跟她去外面的塔羅店說的差不多。 我就很好奇,於是我就自己在剛才,請GPT幫我塔羅占卜一下。 真的太驚訝了,答案居然有八成準,而且是跟我自己看紫微斗數命盤非常吻合。這真的要記錄一下。同時,也是我生平第一次算塔羅,就是請GPT幫我算
Thumbnail
https://play.google.com/store/books/details?id=IDMNEQAAQBAJ 佩佩在2020年就想寫信問梭羅 佩佩在2020年,就想寫信問梭羅大師一些關於他著作中所提到的思想、哲學。經過十九世紀到現在的二十一世紀時間的變革,有許多的思想,在梭羅當時的
Thumbnail
本文是即將推出的重磅教學文〈想要讓ChatGPT配合畫圖,你該具備的仍然是召喚師的四大能力〉的熱身,先解答幾個常被問到的ChatGPT圖片生成問題,同時分享我生成超過1000張「虛擬情人美女圖」所發現的幾個小密技。 ⛩需不需要使用「英文」下圖片生成指令? ⛩一定要在GPT4「客製化」模式(Crea
重點摘要: 這裡是關於ChatGPT的AI Innovation Talk的內容摘要: 1. ChatGPT是一個訊息處理器,不是聊天機器人,要先正確認知它的能力邊界。它擅長總結、推論、轉換和擴寫。 2. 使用ChatGPT時要明確具體,可以使用分隔符號等提高明確度,也可以拆解步驟讓它逐
Thumbnail
前幾日 Twitter 社群中許多人轉傳一篇發表在 arxiv 的論文預印本(preprint),提及 ChatGPT 隨著時間可能產生了變化,甚至人們稱此篇貼文指出「GPT-4」似乎表現越來越差!儘管隨即被許多人相繼駁斥,此篇研究並沒有提出任何關於 GPT-4 效能變差的結論。
Thumbnail
學生使用Chat GPT就是偷懶嗎? 這篇文章不但要求Chat GPT挑戰112年學測英文作文,同時要求他評分、批改、改寫、教學,甚至寫範文,評價自己寫的範文,這些挑戰他都能做到嗎? 當AI的能力已經可以取代人類的智力,該做的是利用他,還是禁止他?
Thumbnail
請ChatGPT創造了三篇小故事。「AI機器人大衛與小恐龍」「AI人工智能vs.人類存亡之戰」 「沒有感情的吃薯條機器」
Thumbnail
ChatGPT是一個可以幫助您利用自然語言處理和機器學習技術來開發、部署和維護聊天機器人的平台。它可以讓您使用自己的資料和模型,ChatGPT可以幫助你在部落格上賺取收入,讓您可以更輕鬆地寫出有價值的文章。 ChatGPT可以根據你給定的概念或主題,提供詞彙和提示,幫助你更快速地開發優秀的內容。此
Thumbnail
OpenAI 已經意識到有關ChatGPT 的抄襲行為,因此推出 AI Text Classifier 以區分文本是AI 或是人類編寫的。本文將介紹如何使用AI Text Classifier檢測文本,並詮釋其產生的檢測結果,最後解釋該工具準確性和限制。