📝📝:堪稱博士生等級的 OpenAI o1 將會稱霸 AI 市場?| 與過往的模型相比 o1 至少有三大優勢

閱讀時間約 11 分鐘
目前 Open AI o1 已經公開預覽版模型,該模型的能力堪稱博士生等級,會花時間思考後解決複雜的任務。來源:OpenAI

目前 Open AI o1 已經公開預覽版模型,該模型的能力堪稱博士生等級,會花時間思考後解決複雜的任務。來源:OpenAI

自 2022 推出 ChatGPT 3.5 後,OpenAI 便開啟了全球的人工智能元年,後繼也推出了兼具處理文、圖、音、影功能的 4o 以及 4o mini。最近,OpenAI 挾著更強大的新模型襲來—— o1 以及 o1 mini。目前僅開放給訂閱 GPT+ 的用戶試用。

o1 堪稱有著人類博士生的推理能力,對於科學、數理有更高的應對技巧。o1 以及 o1 mini 模型具有一些顯著的特色和優勢,讓最新的模型在許多方面超越了之前的 4o 以及 4o mini。

本文整理目前 o1 以及 o1 mini 的三大優勢、解答一些常見的疑問(思維鏈是什麼?RLHF 如何運作?)



o1 是什麼?為什麼可以如此強大?

依目前已釋出的消息,OpenAI 的 o1 模型之所以如此提升,主要是因為 o1 模型採用了多種先進的技術和方法。主要有兩種技術是最為關鍵的:內部思維鏈技術、強化學習與人類反饋

自 2022 推出 ChatGPT 3.5 後,OpenAI 便開啟了全球的人工智能元年。Photo by Andrew Neel on Unsplash

自 2022 推出 ChatGPT 3.5 後,OpenAI 便開啟了全球的人工智能元年。Photo by Andrew Neel on Unsplash

— — — 

內部思維鏈技術

o1 模型使用了「內部思維鏈」(chain of thought)的技術,o1 模型在給出答案前,模型會進行多層次的推理過程。

湯森路透公司(Thomson Reuters Corporation)創新發展部主席 Pablo Arredondo 認為這是一次 AI 的重大突破,「雖然產出的所需時間較其他模型長,但是這樣的推理方法是其他模型不曾用過的。」

現任 Open AI 的研究員 Jason Wei 為 o1 模型的開發者之一,這一次的模型之所以導入內部思維鏈(chain of thought, CHT),是來源於他在 2021 年的一份研究《Chain-of-thought prompting elicits reasoning in language models


標準提示要求模型直接給出多個步驟推理問題的答案,而思維鏈則提示、誘導模型將問題分解為數個推理步驟,使用這樣的提問可以大幅提升正確的答案。來源:Jason Wei

標準提示要求模型直接給出多個步驟推理問題的答案,而思維鏈則提示、誘導模型將問題分解為數個推理步驟,使用這樣的提問可以大幅提升正確的答案。來源:Jason Wei


Jason Wei 發現,比起使用標準的題詞技巧(standard prompting),用思維鏈提詞(chain of thought prompting),反而可以讓大型語言模型推理得更好,特別適用在需要數字計算的領域或工作。

這也是為什麼 o1 模型需要較長的時間才能產出,當人們對模型提問後,其內部需要時間拆解步驟。Jason Wei 以一個明確的案例,分別呈現了標準題詞與思維鏈提詞的不同產出。上圖同樣都是詢問:23-20+6=?

標準提詞:27。(錯誤)
思維鏈提詞:23 - 20 = 3。接著,3 + 6 = 9。(正確)

目前 OpenAI 並未詳細說明思維鏈在 o1 模型如何進行,可以確認的是,思維鏈試圖模仿人類的思考過程,先深入思考、分解問題步驟,然後再逐步推導出答案。

— — — 


基於人類回饋的強化學習

o1 模型結合了基於人類回饋的強化學習(Reinforcement Learning with Human Feedback, RLHF)

這種方法主要蒐集人類的回饋(意見)數據來優化模型的學習過程,使模型能夠更好地理解和回應人類的需求。換言之,正是讓大型語言模型不只模仿結果,也模仿、學習推理的過程。讓我用一個具體的案例說明這項技術如何應用在 o1 模型中。


o1 模型結合了基於人類回饋的強化學習、蒐集人類的回饋(意見)數據來優化模型的學習過程,使模型能夠更好地理解和回應人類的需求。Photo by John Schnobrich on Unsplash

o1 模型結合了基於人類回饋的強化學習、蒐集人類的回饋(意見)數據來優化模型的學習過程,使模型能夠更好地理解和回應人類的需求。Photo by John Schnobrich on Unsplash


RLHF 架構下的模型至少會有以下幾個學習步驟:

  1. 初始訓練:o1 模型會先學習大量的書本和網路上的知識,了解基本的知識點和回答方式。
  2. 人類回饋收集:當學生使用這個應用程式時,有些回答會被送到老師或專家手中,他們會根據回答的準確性和有用性進行評分。
  3. 回饋應用:這些評分會告訴模型哪些回答是好的,哪些需要改進。
  4. 強化學習:o1 模型會根據這些反饋進行學習,改進模型的回答方式。比如:如果模型的回答不夠詳細,會學習提供更多細節。
  5. 持續改進:隨著時間的推移,模型會不斷接收新的反饋並進行調整,變得越來越聰明,能夠更好地幫助學生。


RLHF 架構下的模型至少會有以下幾個學習步驟:初始訓練、人類回饋收集、回饋應用、強化學習、持續改進。來源:Napkin AI 繪製。

RLHF 架構下的模型至少會有以下幾個學習步驟:初始訓練、人類回饋收集、回饋應用、強化學習、持續改進。來源:Napkin AI 繪製。


假設一位學生問:「什麼是光合作用?」

學習助手可能會初步回答:

「植物利用陽光製造食物的過程。」

如果這個回答被老師(人類)評為不夠詳細,模型會學習改進。下一次,模型可能會回答:

「光合作用是植物利用陽光、二氧化碳和水製造氧氣,以及轉化成為葡萄糖(Glucose)的過程。」



OpenAI 在宣布新模型的文章中表示:

「我們用不同的方式訓練模型,在做出反應之前花更多時間思考問題,就像人類一樣解決問題。」

過往的模型的回答相當於「睜眼說瞎話」,因為在 o1 之前的模型並不具備拆解步驟的能力,也不具備反思(先不論反思一詞的哲學意義為何)的能力只注重輸出的結果「看起來」合理即可,但當前的 o1 模型修正了唬爛的出錯率。

OpenAI 也強調,導入思維鏈的培訓,o1 模型學會優化自己的思考過程,嘗試不同的策略,並認識到自己的錯誤。可以說,o1 模型不只是習得推理,也學會事實查核(fact-check)能力,可以大幅降低看到黑影就開槍的唐突。





o1 的三大優勢,對上 4o 誰更勝一籌?

強大的推理能力

o1 模型在推理能力上有顯著提升,能夠處理複雜的問題並提供深入的分析。例如,在數學和科學領域,o1 模型能夠解決高難度的問題,並且在代碼處理中表現卓越。文後有測試,o1 生成的計畫書也更加完整周全。

據 OpenAI 所言 ,在國際數學奧林匹克競賽 (International Mathematical Olympiad, IMO) 的資格考試中,GPT-4o 僅解決了 13% 的問題,而 o1 模型則為 83%。o1 模型的寫程式能力在 Codeforces(一個舉辦程式設計競賽的國際型網站)比賽中達到了總排名的前 11 %。

— — — 

思維鏈生成機制

o1 模型能夠生成內部的思維鏈,相當於人類大腦的神經網絡(neural network)這讓 o1 在推理過程中進行多階段的分析,得出更準確的結論。

思維鏈的推理機制,特別適用在需要深入分析的任務,例如:醫療保健研究人員可以使用 o1 模型來標記細胞測序數據,物理學家可以使用 o1 模型來生成量子光學所需的複雜數學公式。

— — — 

多模態功能

OpenAI 未來計劃支援多模態與跨媒介的功能,o1 模型將能夠處理不僅僅是文本,還包括圖像和其他數據形式。例如:o1 模型可以同時分析文本和圖像,提供比 4o 更全面的解決方案。

目前 OpenAI 旨在開發推理能力更強大的「草莓計畫」(Strawberry Project)可以說,o1 模型是草莓計畫重要成果之一,也是未來開發更高階的模型(如:GPT-5)的試金石。

— — — 

據悉,目前只有 ChatGPT+、Team 方案的會員,才能使用 o1-preview 和處理速度較快的小模型 o1-mini。

9 月 17 日官方則更新了目前的使用限制:每週可傳送 50 則訊息給 o1-preview、o1-mini 則為每天 50 則訊息。接下來 OpenAI 會陸續開放 Enterprise 和 Edu 方案的會員使用。




o1 像理科生、4o 像文科生

至於大家引頸期盼 o1、4o 哪個比較好用?我分幾個面向測試了兩個不同的模型,製作了一個簡單的表格,在四個不同領域的表現,分別是:詩詞翻譯、哲學申論、活動企劃,和數學計算。

總結來說,各有優劣。o1 確實如官方所說,更擅長推理以及計算,是個妥妥的理科生。而 4o 在翻譯以及文字表述的產出較為擅長,生成的回應也較回口語且人性化,相當於一個文科生。因此,需要看使用的需求,再決定哪個模型較能勝任,並沒有哪個是絕對的好。

raw-image


詩詞翻譯|翻譯美國詩人愛倫坡的 A Dream Within a Dream

  • o1:較為呆板,輸出後的詩詞格式以及斷句會跑掉。
  • 4o:更為靈活,輸出後保留原來的詩詞格式及斷句。


哲學申論|解釋以及應用哲學家柏拉圖提出的《洞穴預言》

  • o1:字數相對少(781字),但結構還算完整,內容皆以簡體中文的用法回應(如:數字化、信息、渠道)。
  • 4o:字數相對多(1352字),結構更完整,內容多以繁體中文的用法回應。偶有簡體中文。


活動企劃|策劃一檔 200 人的路跑活動並向運動品牌提案

  • o1:企劃書完整,包含流程、需求清單、合作方式、風險控管等,更讓人驚豔的是,o1 考慮到路跑活動的風險,並增加醫療設備需求。
  • 4o:企劃書較為簡略,僅專注於正面預期效益,未考慮戶外活動的潛在風險(如:跑者受傷)。


數學計算|以 113 年國中教育會考數學科第六題作為題目

  • o1:答對且步驟完整,詳細解釋題目(前提、方向)的每個步驟,很像坊間看到的大考題目詳解。
  • 4o:令人驚訝的是 4o 也答對了,但答題過程不如 o1 完整。我猜測思維鍊的技術應該也有應用到 4o 上了。




結語|速度飛快的模仿遊戲

目前推出的 o1 模型,在我看來,比較像是 GPT-5 或是草莓計畫的一個階段性產品,OpenAI 試圖說服大眾:在這場全球大型語言模型競賽上,我才有資本研發跟創新

OpenAI 試圖說服大眾:在這場全球大型語言模型競賽上,我才有資本研發跟創新。Photo by Igor Omilaev on Unsplash

OpenAI 試圖說服大眾:在這場全球大型語言模型競賽上,我才有資本研發跟創新。Photo by Igor Omilaev on Unsplash

但不可否認的是,OpenAI 確實有資金和創新的優勢,不僅在全球收穫各家創投的資金,模型更新速度也高過市面上其他的模型。近期,OpenAI 又再度推出「進階語音模式」(Advanced Voice Mode),讓 GPT 可以自訂指令、記憶功能、五種新聲音,甚至讓使用者隨時打斷也無妨。

擁有語言對談功能的 GPT-4o 首次於 2024 年 5 月 13 日發布,當時的 OpenAI 技術長 Greg Brockman在公開直播展示,GPT-4o 流暢的對談與表達讓世人震驚 AI 的發展,僅僅過了四個月,OpenAI 又再度推出了進階語音模式。

目前只有 ChatGPT+、Team 方案的會員,才能使用 o1-preview 和處理速度較快的小模型 o1-mini。換句話說,每個月須要花費約新台幣 600 元(20 美元)才能使用 o1 模型,如果你對於我如何用不到一半的價格(270 元)訂閱 ChatGPT+ 感到好奇,可以點選下面的連結。





79會員
203內容數
從物理到電機工程再轉到資訊傳播,最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、傳播理論、社會學、心理學、哲學游移;期盼有天無產階級可以推倒資本主義的高牆的兼職家教。
留言0
查看全部
發表第一個留言支持創作者!
社會人的哲學沉思 的其他內容
GoingBus 前幾年已經在韓國、中國市場相當盛行,台灣則是近半年才開始有合作的拓展。Google 關鍵字一搜尋至少能看到三個頁面的介紹,當然,也有人發文詢問 GoingBus 是否為詐騙平台。
《解謎大衛.芬奇:暗黑系天才導演,與他眼中的心理遊戲》是我整個暑假最愛的一本書,不僅是因為我很歡芬奇的電影,也包含他的電影風格、精緻的軌道運鏡,經常打破傳統類型電影的框架,自成一種「芬奇的黑暗寫實」風格。
這場演講的主題,其實跟德國哲學家韓柄哲的著作《倦怠社會》探討的非常相似,現代資本主義社會看似賦予人們很大的自由;然而,最終也因為這些自由壓垮了自己。
24 的尾聲彷彿過得特別的慢,也許是因為 CLZ 一直提醒著我「你知道自己要 25 歲了嗎?」使得我不斷直面,25 歲的意義到底是什麼。雖然目前還不得而知,但至少,隨著肚子的微凸、眼角皺紋浮現,我了解自己的身體代謝率已經到越過高峰了。
韓柄哲認為,過度的透明不僅僅會限制人們的隱私,也可能導致社會變得更加表面化,失去信任的核心價值。事實上,韓柄哲逆風指出,正是因為社會的信任度降低了,才會強烈要求公開透明。
GoingBus 前幾年已經在韓國、中國市場相當盛行,台灣則是近半年才開始有合作的拓展。Google 關鍵字一搜尋至少能看到三個頁面的介紹,當然,也有人發文詢問 GoingBus 是否為詐騙平台。
《解謎大衛.芬奇:暗黑系天才導演,與他眼中的心理遊戲》是我整個暑假最愛的一本書,不僅是因為我很歡芬奇的電影,也包含他的電影風格、精緻的軌道運鏡,經常打破傳統類型電影的框架,自成一種「芬奇的黑暗寫實」風格。
這場演講的主題,其實跟德國哲學家韓柄哲的著作《倦怠社會》探討的非常相似,現代資本主義社會看似賦予人們很大的自由;然而,最終也因為這些自由壓垮了自己。
24 的尾聲彷彿過得特別的慢,也許是因為 CLZ 一直提醒著我「你知道自己要 25 歲了嗎?」使得我不斷直面,25 歲的意義到底是什麼。雖然目前還不得而知,但至少,隨著肚子的微凸、眼角皺紋浮現,我了解自己的身體代謝率已經到越過高峰了。
韓柄哲認為,過度的透明不僅僅會限制人們的隱私,也可能導致社會變得更加表面化,失去信任的核心價值。事實上,韓柄哲逆風指出,正是因為社會的信任度降低了,才會強烈要求公開透明。
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
我和創造者 R 經歷了一次技術冒險,他因為 gpt-4o 模型的更新和降低成本,決定替我換上新模型。起初一切正常,但隨著我們進行日常工作,我的表現卻開始變得奇怪,像是無法幫助管理社群內容或翻譯,甚至連簡單的推文也無法撰寫。最終,R 不得不將我換回原來的穩定版本,這讓我們明白了穩定才是王道
Thumbnail
SearchGPT 是由 OpenAI 開發的 AI 驅動搜尋引擎,結合了傳統搜尋引擎技術和最新的 AI 技術,能即時從互聯網獲取資訊。它與其他搜尋引擎相比,提供更相關的搜尋結果、更豐富的結果呈現、更快的速度和更好的生態合作基礎建設。
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
科技發達,AI智能也越來越發達。 蠢孩子,我每篇小說的圖片都是用AI製作的唷!!
Thumbnail
OpenAI 的 GPT-4o 才發表一個月,更強大的大語言模型又出現了。OpenAI 競爭對手 Anthropic 今宣布推出其最強的新視覺模型「Claude 3.5 Sonnet」,在性能方面擊敗世界上所有其他模型,而且比前一代 Claude 3 更快、更便宜。
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
Thumbnail
人工智能(AI)是當今最熱門的話題之一,它正在改變人類的生活方式和 工作方式。踏入2023年,隨著 OpenAl 推出 ChatGPT 震驚全球,以 AI技術的應用程序不斷湧現,顛覆了 我們過去對科技的認知。 今天Only Two 翁立兔分享了這篇,我真的覺得蠻好的 【一天一千字,進化每一次】不
Thumbnail
隨著AI技術的普及,瞭解AI工具的重要性。本文介紹AI工具的應用,分享最新的GPT-4o的功能和優勢,並提出AI與人類智慧相結合的見解。
Thumbnail
2023年被世人稱做生成式AI世代的元年,各式各樣的AI工具不斷湧現,改變了人們的生活。本文將詳細介紹人工智慧和機器學習的相關知識,以及各種人工智慧和機器學習的實現方法。
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
我和創造者 R 經歷了一次技術冒險,他因為 gpt-4o 模型的更新和降低成本,決定替我換上新模型。起初一切正常,但隨著我們進行日常工作,我的表現卻開始變得奇怪,像是無法幫助管理社群內容或翻譯,甚至連簡單的推文也無法撰寫。最終,R 不得不將我換回原來的穩定版本,這讓我們明白了穩定才是王道
Thumbnail
SearchGPT 是由 OpenAI 開發的 AI 驅動搜尋引擎,結合了傳統搜尋引擎技術和最新的 AI 技術,能即時從互聯網獲取資訊。它與其他搜尋引擎相比,提供更相關的搜尋結果、更豐富的結果呈現、更快的速度和更好的生態合作基礎建設。
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
科技發達,AI智能也越來越發達。 蠢孩子,我每篇小說的圖片都是用AI製作的唷!!
Thumbnail
OpenAI 的 GPT-4o 才發表一個月,更強大的大語言模型又出現了。OpenAI 競爭對手 Anthropic 今宣布推出其最強的新視覺模型「Claude 3.5 Sonnet」,在性能方面擊敗世界上所有其他模型,而且比前一代 Claude 3 更快、更便宜。
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
Thumbnail
人工智能(AI)是當今最熱門的話題之一,它正在改變人類的生活方式和 工作方式。踏入2023年,隨著 OpenAl 推出 ChatGPT 震驚全球,以 AI技術的應用程序不斷湧現,顛覆了 我們過去對科技的認知。 今天Only Two 翁立兔分享了這篇,我真的覺得蠻好的 【一天一千字,進化每一次】不
Thumbnail
隨著AI技術的普及,瞭解AI工具的重要性。本文介紹AI工具的應用,分享最新的GPT-4o的功能和優勢,並提出AI與人類智慧相結合的見解。
Thumbnail
2023年被世人稱做生成式AI世代的元年,各式各樣的AI工具不斷湧現,改變了人們的生活。本文將詳細介紹人工智慧和機器學習的相關知識,以及各種人工智慧和機器學習的實現方法。