📝📝：堪稱博士生等級的 OpenAI o1 將會稱霸 AI 市場？｜與過往的模型相比 o1 至少有三大優勢

2024/10/12 更新2024/10/01 發佈閱讀 11 分鐘

目前 Open AI o1 已經公開預覽版模型，該模型的能力堪稱博士生等級，會花時間思考後解決複雜的任務。來源：OpenAI

自 2022 推出 ChatGPT 3.5 後，OpenAI 便開啟了全球的人工智能元年，後繼也推出了兼具處理文、圖、音、影功能的 4o 以及 4o mini。最近，OpenAI 挾著更強大的新模型襲來—— o1 以及 o1 mini。目前僅開放給訂閱 GPT+ 的用戶試用。

o1 堪稱有著人類博士生的推理能力，對於科學、數理有更高的應對技巧。o1 以及 o1 mini 模型具有一些顯著的特色和優勢，讓最新的模型在許多方面超越了之前的 4o 以及 4o mini。

本文整理目前 o1 以及 o1 mini 的三大優勢、解答一些常見的疑問（思維鏈是什麼？RLHF 如何運作？）。

o1 是什麼？為什麼可以如此強大？

依目前已釋出的消息，OpenAI 的 o1 模型之所以如此提升，主要是因為 o1 模型採用了多種先進的技術和方法。主要有兩種技術是最為關鍵的：內部思維鏈技術、強化學習與人類反饋

自 2022 推出 ChatGPT 3.5 後，OpenAI 便開啟了全球的人工智能元年。Photo by Andrew Neel on Unsplash

— — —

‧

內部思維鏈技術

o1 模型使用了「內部思維鏈」（chain of thought）的技術，o1 模型在給出答案前，模型會進行多層次的推理過程。

湯森路透公司（Thomson Reuters Corporation）創新發展部主席 Pablo Arredondo 認為這是一次 AI 的重大突破，「雖然產出的所需時間較其他模型長，但是這樣的推理方法是其他模型不曾用過的。」

現任 Open AI 的研究員 Jason Wei 為 o1 模型的開發者之一，這一次的模型之所以導入內部思維鏈（chain of thought, CHT），是來源於他在 2021 年的一份研究《Chain-of-thought prompting elicits reasoning in language models》

標準提示要求模型直接給出多個步驟推理問題的答案，而思維鏈則提示、誘導模型將問題分解為數個推理步驟，使用這樣的提問可以大幅提升正確的答案。來源：Jason Wei

Jason Wei 發現，比起使用標準的題詞技巧（standard prompting），用思維鏈提詞（chain of thought prompting），反而可以讓大型語言模型推理得更好，特別適用在需要數字計算的領域或工作。

這也是為什麼 o1 模型需要較長的時間才能產出，當人們對模型提問後，其內部需要時間拆解步驟。Jason Wei 以一個明確的案例，分別呈現了標準題詞與思維鏈提詞的不同產出。上圖同樣都是詢問：23－20＋6＝？

標準提詞：27。（錯誤）
思維鏈提詞：23 - 20 = 3。接著，3 + 6 = 9。（正確）

目前 OpenAI 並未詳細說明思維鏈在 o1 模型如何進行，可以確認的是，思維鏈試圖模仿人類的思考過程，先深入思考、分解問題步驟，然後再逐步推導出答案。

— — —

‧

基於人類回饋的強化學習

o1 模型結合了基於人類回饋的強化學習（Reinforcement Learning with Human Feedback, RLHF）。

這種方法主要蒐集人類的回饋（意見）數據來優化模型的學習過程，使模型能夠更好地理解和回應人類的需求。換言之，正是讓大型語言模型不只模仿結果，也模仿、學習推理的過程。讓我用一個具體的案例說明這項技術如何應用在 o1 模型中。

o1 模型結合了基於人類回饋的強化學習、蒐集人類的回饋（意見）數據來優化模型的學習過程，使模型能夠更好地理解和回應人類的需求。Photo by John Schnobrich on Unsplash

RLHF 架構下的模型至少會有以下幾個學習步驟：

初始訓練：o1 模型會先學習大量的書本和網路上的知識，了解基本的知識點和回答方式。
人類回饋收集：當學生使用這個應用程式時，有些回答會被送到老師或專家手中，他們會根據回答的準確性和有用性進行評分。
回饋應用：這些評分會告訴模型哪些回答是好的，哪些需要改進。
強化學習：o1 模型會根據這些反饋進行學習，改進模型的回答方式。比如：如果模型的回答不夠詳細，會學習提供更多細節。
持續改進：隨著時間的推移，模型會不斷接收新的反饋並進行調整，變得越來越聰明，能夠更好地幫助學生。

RLHF 架構下的模型至少會有以下幾個學習步驟：初始訓練、人類回饋收集、回饋應用、強化學習、持續改進。來源：Napkin AI 繪製。

假設一位學生問：「什麼是光合作用？」

學習助手可能會初步回答：

「植物利用陽光製造食物的過程。」

如果這個回答被老師（人類）評為不夠詳細，模型會學習改進。下一次，模型可能會回答：

「光合作用是植物利用陽光、二氧化碳和水製造氧氣，以及轉化成為葡萄糖（Glucose）的過程。」

OpenAI 在宣布新模型的文章中表示：

「我們用不同的方式訓練模型，在做出反應之前花更多時間思考問題，就像人類一樣解決問題。」

過往的模型的回答相當於「睜眼說瞎話」，因為在 o1 之前的模型並不具備拆解步驟的能力，也不具備反思（先不論反思一詞的哲學意義為何）的能力只注重輸出的結果「看起來」合理即可，但當前的 o1 模型修正了唬爛的出錯率。

OpenAI 也強調，導入思維鏈的培訓，o1 模型學會優化自己的思考過程，嘗試不同的策略，並認識到自己的錯誤。可以說，o1 模型不只是習得推理，也學會事實查核（fact-check）能力，可以大幅降低看到黑影就開槍的唐突。

o1 的三大優勢，對上 4o 誰更勝一籌？

強大的推理能力

o1 模型在推理能力上有顯著提升，能夠處理複雜的問題並提供深入的分析。例如，在數學和科學領域，o1 模型能夠解決高難度的問題，並且在代碼處理中表現卓越。文後有測試，o1 生成的計畫書也更加完整周全。

據 OpenAI 所言，在國際數學奧林匹克競賽（International Mathematical Olympiad, IMO）的資格考試中，GPT-4o 僅解決了 13% 的問題，而 o1 模型則為 83%。o1 模型的寫程式能力在 Codeforces（一個舉辦程式設計競賽的國際型網站）比賽中達到了總排名的前 11 %。

— — —

‧

思維鏈生成機制

o1 模型能夠生成內部的思維鏈，相當於人類大腦的神經網絡（neural network）這讓 o1 在推理過程中進行多階段的分析，得出更準確的結論。

思維鏈的推理機制，特別適用在需要深入分析的任務，例如：醫療保健研究人員可以使用 o1 模型來標記細胞測序數據，物理學家可以使用 o1 模型來生成量子光學所需的複雜數學公式。

— — —

‧

多模態功能

OpenAI 未來計劃支援多模態與跨媒介的功能，o1 模型將能夠處理不僅僅是文本，還包括圖像和其他數據形式。例如：o1 模型可以同時分析文本和圖像，提供比 4o 更全面的解決方案。

目前 OpenAI 旨在開發推理能力更強大的「草莓計畫」（Strawberry Project）可以說，o1 模型是草莓計畫重要成果之一，也是未來開發更高階的模型（如：GPT-5）的試金石。

— — —

‧

據悉，目前只有 ChatGPT+、Team 方案的會員，才能使用 o1-preview 和處理速度較快的小模型 o1-mini。

9 月 17 日官方則更新了目前的使用限制：每週可傳送 50 則訊息給 o1-preview、o1-mini 則為每天 50 則訊息。接下來 OpenAI 會陸續開放 Enterprise 和 Edu 方案的會員使用。

o1 像理科生、4o 像文科生

至於大家引頸期盼 o1、4o 哪個比較好用？我分幾個面向測試了兩個不同的模型，製作了一個簡單的表格，在四個不同領域的表現，分別是：詩詞翻譯、哲學申論、活動企劃，和數學計算。

總結來說，各有優劣。o1 確實如官方所說，更擅長推理以及計算，是個妥妥的理科生。而 4o 在翻譯以及文字表述的產出較為擅長，生成的回應也較回口語且人性化，相當於一個文科生。因此，需要看使用的需求，再決定哪個模型較能勝任，並沒有哪個是絕對的好。

詩詞翻譯｜翻譯美國詩人愛倫坡的 A Dream Within a Dream

o1：較為呆板，輸出後的詩詞格式以及斷句會跑掉。
4o：更為靈活，輸出後保留原來的詩詞格式及斷句。

哲學申論｜解釋以及應用哲學家柏拉圖提出的《洞穴預言》

o1：字數相對少（781字），但結構還算完整，內容皆以簡體中文的用法回應（如：數字化、信息、渠道）。
4o：字數相對多（1352字），結構更完整，內容多以繁體中文的用法回應。偶有簡體中文。

活動企劃｜策劃一檔 200 人的路跑活動並向運動品牌提案

o1：企劃書完整，包含流程、需求清單、合作方式、風險控管等，更讓人驚豔的是，o1 考慮到路跑活動的風險，並增加醫療設備需求。
4o：企劃書較為簡略，僅專注於正面預期效益，未考慮戶外活動的潛在風險（如：跑者受傷）。

數學計算｜以 113 年國中教育會考數學科第六題作為題目

o1：答對且步驟完整，詳細解釋題目（前提、方向）的每個步驟，很像坊間看到的大考題目詳解。
4o：令人驚訝的是 4o 也答對了，但答題過程不如 o1 完整。我猜測思維鍊的技術應該也有應用到 4o 上了。

結語｜速度飛快的模仿遊戲

目前推出的 o1 模型，在我看來，比較像是 GPT-5 或是草莓計畫的一個階段性產品，OpenAI 試圖說服大眾：在這場全球大型語言模型競賽上，我才有資本研發跟創新。

OpenAI 試圖說服大眾：在這場全球大型語言模型競賽上，我才有資本研發跟創新。Photo by Igor Omilaev on Unsplash

但不可否認的是，OpenAI 確實有資金和創新的優勢，不僅在全球收穫各家創投的資金，模型更新速度也高過市面上其他的模型。近期，OpenAI 又再度推出「進階語音模式」（Advanced Voice Mode），讓 GPT 可以自訂指令、記憶功能、五種新聲音，甚至讓使用者隨時打斷也無妨。

擁有語言對談功能的 GPT-4o 首次於 2024 年 5 月 13 日發布，當時的 OpenAI 技術長 Greg Brockman在公開直播展示，GPT-4o 流暢的對談與表達讓世人震驚 AI 的發展，僅僅過了四個月，OpenAI 又再度推出了進階語音模式。

目前只有 ChatGPT+、Team 方案的會員，才能使用 o1-preview 和處理速度較快的小模型 o1-mini。換句話說，每個月須要花費約新台幣 600 元（20 美元）才能使用 o1 模型，如果你對於我如何用不到一半的價格（270 元）訂閱 ChatGPT+ 感到好奇，可以點選下面的連結。

留言

社會人的哲學沉思

182會員

335內容數

從物理到電機工程再轉到資訊傳播，最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、傳播理論、社會學、心理學、哲學游移；期盼有天無產階級可以推倒資本主義的高牆的兼職家教。

社會人的哲學沉思的其他內容

2025/04/25

📝📝：AI 正處於危險的幻覺｜認知科學家 Guillaume Thierry：我們需要停止人性化 AI

大型語言模型以自然的節奏說話，表達好奇心，甚至聲稱能體驗情感。但這精心打造的表象掩蓋了一個基本的事實：這些 AI 系統根本不具備這些人類特質。

2025/04/25

📝📝：AI 正處於危險的幻覺｜認知科學家 Guillaume Thierry：我們需要停止人性化 AI

2025/04/22

📝📝：馬來人、爪哇人、菲律賓人都很懶惰？｜「懶惰」的迷思隨著殖民政策延續至今的東南亞

「懶惰原住民」（the Lazy Native）的迷思並非自然形成，而是殖民當局帶著明確的意識形態意圖精心打造的。

2025/04/22

📝📝：馬來人、爪哇人、菲律賓人都很懶惰？｜「懶惰」的迷思隨著殖民政策延續至今的東南亞

「懶惰原住民」（the Lazy Native）的迷思並非自然形成，而是殖民當局帶著明確的意識形態意圖精心打造的。

2025/04/18

📝📝：未來的人類不再意識到 AI 的存在｜科技思想家 Kevin Kelly 對技術、AI 及其未來影響的見解

KK 指出，AI 的長期影響將超過電力與火的發明，但這個變革需要數百年來逐步展現。

2025/04/18

📝📝：未來的人類不再意識到 AI 的存在｜科技思想家 Kevin Kelly 對技術、AI 及其未來影響的見解

KK 指出，AI 的長期影響將超過電力與火的發明，但這個變革需要數百年來逐步展現。

看更多

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品，以十段寓言式殘篇，重新拼貼記憶、暴力與美學，並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇：帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略，嘗試解析極權底下不可言說之事，將如何成為可被觀看的公共發聲。

#釀電影#釀評論#藝術評論

2026/01/14

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

#釀電影#釀評論#藝術評論

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

柏林劇團在 2026 北藝嚴選，再次帶來由布萊希特改編的經典劇目《三便士歌劇》（The Threepenny Opera），導演巴里・柯斯基以舞台結構與舞台調度，重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核，藉由沉浸與疏離的辯證，解析此作如何再次照見觀眾自身的位置。

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲．蓋柏樂》的詮釋，從劇本歷史、聲響與舞臺設計，到演員的主體創作方法，探討此版本如何讓經典劇作在當代劇場語境下煥發新生，滿足現代觀眾的觀看慾望。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

涵柳的沙龍

《轉轉生 Re:INCARNATION》：從身體與服裝看見奈及利亞的重生

《轉轉生》為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，融合舞蹈、音樂、時尚和視覺藝術，透過身體、服裝與群舞結構，回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發，分析《轉轉生》如何以當代目光，形塑去殖民視角的奈及利亞歷史。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14