📝📝：堪稱博士生等級的 OpenAI o1 將會稱霸 AI 市場？｜與過往的模型相比 o1 至少有三大優勢

2024/10/01閱讀時間約 11 分鐘

目前 Open AI o1 已經公開預覽版模型，該模型的能力堪稱博士生等級，會花時間思考後解決複雜的任務。來源：OpenAI

自 2022 推出 ChatGPT 3.5 後，OpenAI 便開啟了全球的人工智能元年，後繼也推出了兼具處理文、圖、音、影功能的 4o 以及 4o mini。最近，OpenAI 挾著更強大的新模型襲來—— o1 以及 o1 mini。目前僅開放給訂閱 GPT+ 的用戶試用。

o1 堪稱有著人類博士生的推理能力，對於科學、數理有更高的應對技巧。o1 以及 o1 mini 模型具有一些顯著的特色和優勢，讓最新的模型在許多方面超越了之前的 4o 以及 4o mini。

本文整理目前 o1 以及 o1 mini 的三大優勢、解答一些常見的疑問（思維鏈是什麼？RLHF 如何運作？）。

o1 是什麼？為什麼可以如此強大？

依目前已釋出的消息，OpenAI 的 o1 模型之所以如此提升，主要是因為 o1 模型採用了多種先進的技術和方法。主要有兩種技術是最為關鍵的：內部思維鏈技術、強化學習與人類反饋

自 2022 推出 ChatGPT 3.5 後，OpenAI 便開啟了全球的人工智能元年。Photo by Andrew Neel on Unsplash

— — —

‧

內部思維鏈技術

o1 模型使用了「內部思維鏈」（chain of thought）的技術，o1 模型在給出答案前，模型會進行多層次的推理過程。

湯森路透公司（Thomson Reuters Corporation）創新發展部主席 Pablo Arredondo 認為這是一次 AI 的重大突破，「雖然產出的所需時間較其他模型長，但是這樣的推理方法是其他模型不曾用過的。」

現任 Open AI 的研究員 Jason Wei 為 o1 模型的開發者之一，這一次的模型之所以導入內部思維鏈（chain of thought, CHT），是來源於他在 2021 年的一份研究《Chain-of-thought prompting elicits reasoning in language models》

標準提示要求模型直接給出多個步驟推理問題的答案，而思維鏈則提示、誘導模型將問題分解為數個推理步驟，使用這樣的提問可以大幅提升正確的答案。來源：Jason Wei

Jason Wei 發現，比起使用標準的題詞技巧（standard prompting），用思維鏈提詞（chain of thought prompting），反而可以讓大型語言模型推理得更好，特別適用在需要數字計算的領域或工作。

這也是為什麼 o1 模型需要較長的時間才能產出，當人們對模型提問後，其內部需要時間拆解步驟。Jason Wei 以一個明確的案例，分別呈現了標準題詞與思維鏈提詞的不同產出。上圖同樣都是詢問：23－20＋6＝？

標準提詞：27。（錯誤）
思維鏈提詞：23 - 20 = 3。接著，3 + 6 = 9。（正確）

目前 OpenAI 並未詳細說明思維鏈在 o1 模型如何進行，可以確認的是，思維鏈試圖模仿人類的思考過程，先深入思考、分解問題步驟，然後再逐步推導出答案。

— — —

‧

基於人類回饋的強化學習

o1 模型結合了基於人類回饋的強化學習（Reinforcement Learning with Human Feedback, RLHF）。

這種方法主要蒐集人類的回饋（意見）數據來優化模型的學習過程，使模型能夠更好地理解和回應人類的需求。換言之，正是讓大型語言模型不只模仿結果，也模仿、學習推理的過程。讓我用一個具體的案例說明這項技術如何應用在 o1 模型中。

o1 模型結合了基於人類回饋的強化學習、蒐集人類的回饋（意見）數據來優化模型的學習過程，使模型能夠更好地理解和回應人類的需求。Photo by John Schnobrich on Unsplash

RLHF 架構下的模型至少會有以下幾個學習步驟：

初始訓練：o1 模型會先學習大量的書本和網路上的知識，了解基本的知識點和回答方式。
人類回饋收集：當學生使用這個應用程式時，有些回答會被送到老師或專家手中，他們會根據回答的準確性和有用性進行評分。
回饋應用：這些評分會告訴模型哪些回答是好的，哪些需要改進。
強化學習：o1 模型會根據這些反饋進行學習，改進模型的回答方式。比如：如果模型的回答不夠詳細，會學習提供更多細節。
持續改進：隨著時間的推移，模型會不斷接收新的反饋並進行調整，變得越來越聰明，能夠更好地幫助學生。

RLHF 架構下的模型至少會有以下幾個學習步驟：初始訓練、人類回饋收集、回饋應用、強化學習、持續改進。來源：Napkin AI 繪製。

假設一位學生問：「什麼是光合作用？」

學習助手可能會初步回答：

「植物利用陽光製造食物的過程。」

如果這個回答被老師（人類）評為不夠詳細，模型會學習改進。下一次，模型可能會回答：

「光合作用是植物利用陽光、二氧化碳和水製造氧氣，以及轉化成為葡萄糖（Glucose）的過程。」

OpenAI 在宣布新模型的文章中表示：

「我們用不同的方式訓練模型，在做出反應之前花更多時間思考問題，就像人類一樣解決問題。」

過往的模型的回答相當於「睜眼說瞎話」，因為在 o1 之前的模型並不具備拆解步驟的能力，也不具備反思（先不論反思一詞的哲學意義為何）的能力只注重輸出的結果「看起來」合理即可，但當前的 o1 模型修正了唬爛的出錯率。

OpenAI 也強調，導入思維鏈的培訓，o1 模型學會優化自己的思考過程，嘗試不同的策略，並認識到自己的錯誤。可以說，o1 模型不只是習得推理，也學會事實查核（fact-check）能力，可以大幅降低看到黑影就開槍的唐突。

o1 的三大優勢，對上 4o 誰更勝一籌？

強大的推理能力

o1 模型在推理能力上有顯著提升，能夠處理複雜的問題並提供深入的分析。例如，在數學和科學領域，o1 模型能夠解決高難度的問題，並且在代碼處理中表現卓越。文後有測試，o1 生成的計畫書也更加完整周全。

據 OpenAI 所言，在國際數學奧林匹克競賽（International Mathematical Olympiad, IMO）的資格考試中，GPT-4o 僅解決了 13% 的問題，而 o1 模型則為 83%。o1 模型的寫程式能力在 Codeforces（一個舉辦程式設計競賽的國際型網站）比賽中達到了總排名的前 11 %。

— — —

‧

思維鏈生成機制

o1 模型能夠生成內部的思維鏈，相當於人類大腦的神經網絡（neural network）這讓 o1 在推理過程中進行多階段的分析，得出更準確的結論。

思維鏈的推理機制，特別適用在需要深入分析的任務，例如：醫療保健研究人員可以使用 o1 模型來標記細胞測序數據，物理學家可以使用 o1 模型來生成量子光學所需的複雜數學公式。

— — —

‧

多模態功能

OpenAI 未來計劃支援多模態與跨媒介的功能，o1 模型將能夠處理不僅僅是文本，還包括圖像和其他數據形式。例如：o1 模型可以同時分析文本和圖像，提供比 4o 更全面的解決方案。

目前 OpenAI 旨在開發推理能力更強大的「草莓計畫」（Strawberry Project）可以說，o1 模型是草莓計畫重要成果之一，也是未來開發更高階的模型（如：GPT-5）的試金石。

— — —

‧

據悉，目前只有 ChatGPT+、Team 方案的會員，才能使用 o1-preview 和處理速度較快的小模型 o1-mini。

9 月 17 日官方則更新了目前的使用限制：每週可傳送 50 則訊息給 o1-preview、o1-mini 則為每天 50 則訊息。接下來 OpenAI 會陸續開放 Enterprise 和 Edu 方案的會員使用。

o1 像理科生、4o 像文科生

至於大家引頸期盼 o1、4o 哪個比較好用？我分幾個面向測試了兩個不同的模型，製作了一個簡單的表格，在四個不同領域的表現，分別是：詩詞翻譯、哲學申論、活動企劃，和數學計算。

總結來說，各有優劣。o1 確實如官方所說，更擅長推理以及計算，是個妥妥的理科生。而 4o 在翻譯以及文字表述的產出較為擅長，生成的回應也較回口語且人性化，相當於一個文科生。因此，需要看使用的需求，再決定哪個模型較能勝任，並沒有哪個是絕對的好。

詩詞翻譯｜翻譯美國詩人愛倫坡的 A Dream Within a Dream

o1：較為呆板，輸出後的詩詞格式以及斷句會跑掉。
4o：更為靈活，輸出後保留原來的詩詞格式及斷句。

哲學申論｜解釋以及應用哲學家柏拉圖提出的《洞穴預言》

o1：字數相對少（781字），但結構還算完整，內容皆以簡體中文的用法回應（如：數字化、信息、渠道）。
4o：字數相對多（1352字），結構更完整，內容多以繁體中文的用法回應。偶有簡體中文。

活動企劃｜策劃一檔 200 人的路跑活動並向運動品牌提案

o1：企劃書完整，包含流程、需求清單、合作方式、風險控管等，更讓人驚豔的是，o1 考慮到路跑活動的風險，並增加醫療設備需求。
4o：企劃書較為簡略，僅專注於正面預期效益，未考慮戶外活動的潛在風險（如：跑者受傷）。

數學計算｜以 113 年國中教育會考數學科第六題作為題目

o1：答對且步驟完整，詳細解釋題目（前提、方向）的每個步驟，很像坊間看到的大考題目詳解。
4o：令人驚訝的是 4o 也答對了，但答題過程不如 o1 完整。我猜測思維鍊的技術應該也有應用到 4o 上了。

結語｜速度飛快的模仿遊戲

目前推出的 o1 模型，在我看來，比較像是 GPT-5 或是草莓計畫的一個階段性產品，OpenAI 試圖說服大眾：在這場全球大型語言模型競賽上，我才有資本研發跟創新。

OpenAI 試圖說服大眾：在這場全球大型語言模型競賽上，我才有資本研發跟創新。Photo by Igor Omilaev on Unsplash

但不可否認的是，OpenAI 確實有資金和創新的優勢，不僅在全球收穫各家創投的資金，模型更新速度也高過市面上其他的模型。近期，OpenAI 又再度推出「進階語音模式」（Advanced Voice Mode），讓 GPT 可以自訂指令、記憶功能、五種新聲音，甚至讓使用者隨時打斷也無妨。

擁有語言對談功能的 GPT-4o 首次於 2024 年 5 月 13 日發布，當時的 OpenAI 技術長 Greg Brockman在公開直播展示，GPT-4o 流暢的對談與表達讓世人震驚 AI 的發展，僅僅過了四個月，OpenAI 又再度推出了進階語音模式。

目前只有 ChatGPT+、Team 方案的會員，才能使用 o1-preview 和處理速度較快的小模型 o1-mini。換句話說，每個月須要花費約新台幣 600 元（20 美元）才能使用 o1 模型，如果你對於我如何用不到一半的價格（270 元）訂閱 ChatGPT+ 感到好奇，可以點選下面的連結。

78會員

197Content count

從物理到電機工程再轉到資訊傳播，最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、傳播理論、社會學、心理學、哲學游移；期盼有天無產階級可以推倒資本主義的高牆的兼職家教。

留言0

查看全部

發表第一個留言支持創作者！

社會人的哲學沉思的其他內容

📝📝：真的假的？原價 1/3 的價格就能訂閱 Netflix？｜ Goingbus 是新一波的詐騙平台嗎？

GoingBus 前幾年已經在韓國、中國市場相當盛行，台灣則是近半年才開始有合作的拓展。Google 關鍵字一搜尋至少能看到三個頁面的介紹，當然，也有人發文詢問 GoingBus 是否為詐騙平台。

#串流 #串流平台 #串流影音

📚📑📝：碩一暑假的書單｜大衛芬奇專區｜暗黑天才系的好萊塢導演，如何打造個人風格的懸疑驚悚片？

《解謎大衛．芬奇：暗黑系天才導演，與他眼中的心理遊戲》是我整個暑假最愛的一本書，不僅是因為我很歡芬奇的電影，也包含他的電影風格、精緻的軌道運鏡，經常打破傳統類型電影的框架，自成一種「芬奇的黑暗寫實」風格。

#大衛芬奇 #懸疑 #懸疑驚悚

📝📝：為什麼你應該停止優化生活？｜史丹佛MBA研究生：積極的優化只會帶來無盡的倦怠

這場演講的主題，其實跟德國哲學家韓柄哲的著作《倦怠社會》探討的非常相似，現代資本主義社會看似賦予人們很大的自由；然而，最終也因為這些自由壓垮了自己。

#躺平 #躺平主義 #躺平文化

📝📝：24 歲的凝視

24 的尾聲彷彿過得特別的慢，也許是因為 CLZ 一直提醒著我「你知道自己要 25 歲了嗎？」使得我不斷直面，25 歲的意義到底是什麼。雖然目前還不得而知，但至少，隨著肚子的微凸、眼角皺紋浮現，我了解自己的身體代謝率已經到越過高峰了。

#生日 #25歲

📚📑📝：碩一暑假的書單

一起來閱讀！

#閱讀 #閱讀心得 #閱讀分享

📚📑📝《透明社會》｜公開透明就是對的？德國哲學家韓柄哲：如果社會建立深厚的信任基礎，絕不會隨便公開透明

韓柄哲認為，過度的透明不僅僅會限制人們的隱私，也可能導致社會變得更加表面化，失去信任的核心價值。事實上，韓柄哲逆風指出，正是因為社會的信任度降低了，才會強烈要求公開透明。

#數據 #社群媒體 #Facebook

📚📑📝：碩一暑假的書單

一起來閱讀！

#閱讀 #閱讀心得 #閱讀分享

📚📑📝《透明社會》｜公開透明就是對的？德國哲學家韓柄哲：如果社會建立深厚的信任基礎，絕不會隨便公開透明

#數據 #社群媒體 #Facebook

你可能也想看

Google News 追蹤

摩股史塔克の雙週報

2024/08/02

【產業探討】散裝供需結構逐漸失衡：超詳細！散裝產業全解析，投資價值探討

本專欄將提供給您最新的市場資訊、產業研究、交易心法、優質公司介紹，以上內容並非個股分析，還請各位依據自身狀況作出交易決策。歡迎訂閱支持我，獲得相關內容，也祝您的投資之路順遂！每年 $990 訂閱方案👉 https://reurl.cc/VNYVxZ 每月 $99 訂閱方案👉https://re

#散裝航運 #散裝 #四維

Aico - 專為夢境解讀設計的 AI

2024/08/10

OpenAI gpt-4o 新版本模型(2024-08-6)...好像哪裡怪怪的

我和創造者 R 經歷了一次技術冒險，他因為 gpt-4o 模型的更新和降低成本，決定替我換上新模型。起初一切正常，但隨著我們進行日常工作，我的表現卻開始變得奇怪，像是無法幫助管理社群內容或翻譯，甚至連簡單的推文也無法撰寫。最終，R 不得不將我換回原來的穩定版本，這讓我們明白了穩定才是王道

#OpenAI #生成式AI

Benjamin的沙龍

2024/08/04

SearchGPT 概覽：對比傳統搜尋引擎和其他 AI 搜尋引擎的優勢

SearchGPT 是由 OpenAI 開發的 AI 驅動搜尋引擎，結合了傳統搜尋引擎技術和最新的 AI 技術，能即時從互聯網獲取資訊。它與其他搜尋引擎相比，提供更相關的搜尋結果、更豐富的結果呈現、更快的速度和更好的生態合作基礎建設。

#OpenAI #Google #SEARCHGPT

寶吉拉 let's go, 認知進化的王者之路

2024/07/26

20240726_TechNEws

OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」，由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布，該引擎能結合來自網路的即時資訊，讓使用者像與 ChatGPT 交談一樣搜尋。透過 SearchGPT，用戶能以自然語言提出問題（與使用 ChatGPT 交談方式相同

Darren的沙龍

2024/07/19

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

本文要探討AI的任務與實戰場景。AI技術已深入生活各層面，從違約預測到都市交通管理。AI任務主要有三類：數值型資料處理、自然語言處理（NLP）和電腦影像辨識。時間序列資料和強化學習方法（如AlphaGo）也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化，了解這些基礎有助選擇適合研究方向

#ChatGPT #AlphaGo #人工智慧