OpenAI 推出 GPT-Realtime:宣告 AI 語音技術進入零延遲時代

更新於 發佈於 閱讀時間約 13 分鐘

在聊今天的主角之前,我想先分享一下我的個人體驗。目前我最常用的兩個大語言模型是 ChatGPT Gemini,對我來說,Gemini 在分析能力和速度上比 ChatGPT 好用很多,特別是在處理複雜資料或需要快速歸納重點時。

然而,在語音聊天這塊,坦白說,即使在這次 GPT-Realtime 發表前,個人認為ChatGPT 就已經完勝 Gemini 了。ChatGPT 的語音對話邏輯更清晰、更不容易誤判我的意思,而且延遲已經非常低,聊起來很順暢。沒想到,他們現在又端出了更強大的技術突破,直接把語音互動的體驗提升到一個全新的境界。

raw-image

語音互動將正式邁向「人性化夥伴」階段

人類與機器的語音互動,從最初生硬的指令與回應,一路進化至今,仍舊存在一道難以跨越的鴻溝:延遲。無論是智慧音箱、車載系統,或是客服語音助理,對話中短暫卻明顯的停頓,總會讓人意識到自己正在與一台機器溝通,而非進行一場流暢的交流。這種固有的延遲不僅影響了使用者體驗,更限制了語音 AI 在高即時性場景下的應用潛力。

然而,OpenAI 近期推出的 GPT-Realtime 模型與其正式進入普遍可用(General Availability, GA)階段的 Realtime API,正宣告著這段「尷尬沉默」的歷史即將告一段落。這項技術不僅僅是前代模型的簡單升級,它所帶來的「零延遲」體驗,將從根本上重塑了語音 AI 的技術架構與市場格局。接下來將深入探討 GPT-Realtime 的核心技術與關鍵特色,並分析其對語音 AI 產業的深遠影響,揭示語音 AI 如何透過這項技術,從「功能性工具」邁向「人性化夥伴」的新紀元。


正式啟航:GPT-Realtime 發布

GPT-Realtime 的發布並非無預警。OpenAI 在 2025 年 8 月 28 日透過一場直播活動向開發者社群進行了高調的產品介紹與即時演示,展示其最新的語音對語音模型和 API 功能。這場展示獲得了廣泛關注。緊接著,在 2025 年 8 月 29 日GPT-Realtime 正式推出,其 Realtime API 也隨之從測試版(Beta)進入了普遍可用階段。

這種分階段的發布模式,透露出 OpenAI 縝密的商業與技術策略。首先,早在 2024 年 10 月,Realtime API 就已進入公開測試階段,並獲得了數千名開發者的廣泛使用與回饋。這段漫長的測試期確保了該模型和 API 在可靠性、低延遲和高語音品質方面,已達到能成功部署於生產環境的標準。因此,透過8 月 28 日的直播向外界傳達「我們已準備就緒」的訊號,並透過現場演示來證明其技術實力,並於8 月 29 日正式推出,標誌產品已具備商業成熟度,可供企業與開發者廣泛採用,正式將語音 AI 從實驗室和測試環境,帶入廣大商用場景。


告別延遲的秘密:單一模型驅動的技術革命

要理解 GPT-Realtime 如何實現「零延遲」的突破,必須先回顧傳統語音 AI 系統所面臨的根本性挑戰。

傳統語音 AI 的「三步接力賽」模式

以前的語音 AI,受限於語言模型大小與技術框架,只能分開處理,運作起來就像一場三步接力賽,既耗時又繁瑣:

  1. 語音轉文字 (STT):首先,一個模型負責把你的聲音轉成文字。
  2. 大腦思考 (LLM):接著,另一個模型(像 GPT-4)讀取這些文字,思考如何回應。
  3. 文字轉語音 (TTS):最後,第三個模型再把生成好的文字答案,轉換成語音播放出來。

這整個過程,每一步都需要時間,所有延遲加總起來,就造成了我們常感受到的「停頓感」,讓對話顯得既不自然又很機械。

核心突破:端對端語音處理(一個模型搞定所有事)

GPT-Realtime 的厲害之處,就是徹底推翻了這套「接力賽」流程。它採用了革命性的「端對端」架構,簡單來說,就是只用一個模型,就直接「聽懂」你的聲音,並直接用聲音「回應」你

這種做法帶來了兩大改變:

  1. 速度快到幾乎零延遲:因為省去了中間「語音轉文字」和「文字轉語音」的步驟,延遲被大幅縮短。幾乎可以在你話音剛落的瞬間,它就已經開始回應,創造了前所未有的流暢對話體驗。
  2. 能聽懂你的弦外之音:傳統方法在把語音轉成文字時,會丟失你說話的語氣、情緒、甚至笑聲這些重要資訊,但 GPT-Realtime 直接處理聲音,所以它能捕捉到這些細節;這就是為什麼它的回應聽起來更自然、更富感情,不再像個冷冰冰的機器人,而是一個能感知你情緒的對話夥伴。

實現「零延遲」的額外關鍵

值得注意的是,實現極低延遲是一個複雜的系統工程,並非單一模型就能完全解決。除了核心的端對端架構外,OpenAI 還透過其他技術優化來確保性能。例如,在提示工程方面,開發者可以透過精簡指令、設定 max_tokensstop_sequences 來縮短模型生成回應的時間。此外,在後端基礎設施層面,負載平衡與高效的快取策略也至關重要,它們能夠在應對高併發流量時,避免單一伺服器過載而產生的延遲,確保服務的穩定性與反應速度。這些補充性的技術與核心架構共同作用,才共同構建了一個真正高效、低延遲的語音 AI 系統。


GPT-Realtime 的功能全景與應用前瞻

GPT-Realtime 的發布不僅帶來了技術架構的革命,同時也伴隨著一系列令人驚嘆的性能提升與新功能。

驚人的性能飛躍:基準測試數據解讀

OpenAI 提供了3種常見且具體的基準測試數據,量化展示了 GPT-Realtime 的顯著進步:

  • Big Bench Audio 評估:這項評估主要測試模型的推理能力。GPT-Realtime 的準確率達到了 82.8%,相較於前代模型(2024 年 12 月版)的 65.6% 有了顯著提升。
  • MultiChallenge 音訊基準測試:此測試衡量模型遵循複雜指令的準確度。GPT-Realtime 的準確度從前代的 20.6% 大幅提升至 30.5%。
  • ComplexFuncBench 音訊評估:這項評估旨在衡量模型處理工具調用(function calling)的精確度。GPT-Realtime 的準確度達到了 66.5%,相較前代的 49.7% 有了明顯改進。

儘管在指令遵循等指標上,絕對值仍有進步空間,但這些數據足以證明 GPT-Realtime 在理解與執行能力上的全面進化。這也暗示了雖然模型已經可以投入生產環境,但在某些對精確度要求極高的複雜任務(如多步驟的客服流程)中,未來仍有技術迭代的必要性。

 GPT-Realtime 進步量化比較(2024年12月與2025年8月)

GPT-Realtime 進步量化比較(2024年12月與2025年8月)

賦予 AI 靈魂:更自然、更具表現力的聲音

為進一步提升語音互動的自然度,OpenAI 在 Realtime API 中推出了兩款獨家新聲音:「Cedar」和「Marin」。這些聲音在語調、情感和節奏上都經過了精心訓練,能夠更流暢地模仿人類說話的模式。模型現在可以根據指令產生更具表現力的語音,例如以「專業快速」或「充滿同理心」的方式說話,甚至能無縫地在不同語言間切換。這種對語音細節的精準控制,是實現真正自然對話體驗的關鍵一步。

為開發者解鎖更多可能性:API 新功能詳解

GPT-Realtime 的發布不僅限於模型本身的進化,OpenAI 同時也為其 Realtime API 加入了多項針對商業應用場景的關鍵功能。這表明 OpenAI 的戰略已不僅僅是提供一個通用的語言模型,更是要打造一個為企業提供「一站式」語音解決方案的生態系。

  • 圖像輸入支援(Image Input):此功能讓開發者可以在語音對話中加入圖像、照片或螢幕截圖。這使得模型能夠處理多模態的查詢,例如在客服場景中,客戶可以說「幫我看看這張螢幕截圖裡顯示了什麼問題」,極大地擴展了應用範圍。
  • SIP 電話整合(SIP Phone Call Integration):這項功能允許 Realtime API 直接與公共電話網路、PBX 系統及其他 SIP 端點整合。這為開發者將 AI 語音代理直接部署在客服熱線、電話銷售等需要與現有電話系統連接的企業級場景提供了便利,甚至可以打造即時翻譯的語音解決方案,讓跨國溝通零距離。
  • 遠端 MCP 伺服器支援(Remote MCP Server Support):透過此功能,開發者可以將遠端工具伺服器整合到語音會話中,無需手動編寫複雜的整合程式碼。這使得 AI 代理的工具調用能力可以輕鬆擴展,為複雜的企業系統提供了靈活的連接能力。
  • 可重複使用的提示模板(Reusable Prompts):開發者可以儲存並重複使用包含開發者訊息、工具、變數和對話範例的提示模板。這不僅節省了開發時間,也確保了不同會話間的對話品質與一致性。

這些新功能,特別是 SIP 協議支援與遠端 MCP 整合,明確地將 OpenAI 的目標市場從單純的開發者,擴大到了對穩定性與功能性要求更高的企業級客戶。


洞察與展望:零延遲時代的市場格局與挑戰

GPT-Realtime 的發布,也標誌著語音 AI 市場的競爭進入了一個新的篇章。

語音 AI 的新戰場:從消費級到企業級

過去,語音 AI 多以消費級應用為主,然而,OpenAI 透過降低價格(相較於前代模型降低了 20%)並推出上述針對性功能,展現出其搶攻企業級市場的決心。這些功能直接解決了企業在部署語音客服、教育訓練和個人助理等應用時面臨的痛點;零延遲體驗不僅能提升客戶滿意度,更能優化業務流程,降低營運成本。語音 AI 的新戰場,正從單純的技術競賽,轉向企業服務與商業模式的深度融合。

競爭格局分析

在低延遲語音 AI 領域,OpenAI 並非獨行。市場上已有 Retell AI、PolyAI、Google Dialogflow CX 等眾多競爭者。例如,根據 2025 年 7 月的獨立測試,Retell AI 宣稱其平均端到端延遲為 620 毫秒,而 Google Dialogflow CX 的延遲則為 890 毫秒。

OpenAI 選擇在這一時間點,以「零延遲」之名發布 GPT-Realtime,其核心目的在於透過其強大的品牌影響力與革命性的技術架構,重新定義「低延遲」的標準。雖然物理上的零延遲是不可能實現的,但 OpenAI 的目標是將延遲縮減至人類感官難以察覺的水平,從而創造一種無縫、自然的對話錯覺。這不僅是一場技術實力的比拼,更是一場爭奪市場話語權的戰略布局。

未來的路:仍待解決的挑戰

儘管取得了巨大進步,我們仍需理性看待當前技術的局限性,在處理需要極高精確度、多步驟邏輯和複雜工具調用的企業場景時,AI 語音代理仍有改進空間。此外,在多方對話中的精確辨識與管理、應對不同口音和方言的適應性,以及處理更深層次的語境和情感細節,都將是未來技術迭代的重點方向。


結語:一個新時代的開始

OpenAI 的 GPT-Realtime 不只是一次技術更新,它更像是一個宣告:過去那種和機器對話時,總是要停頓一下、充滿尷尬沉默的時代,真的要結束了。

對於我們普通使用者來說,這意味著未來的語音助理、客服、甚至車內導航,都會變得更像一個真正的「夥伴」,而不只是一個冷冰冰的「工具」。你可以自然地和它聊天、打斷它、甚至跟它開玩笑,它都能即時且帶有情感地回應。這種流暢的互動,將徹底改變我們與科技相處的方式。

GPT-Realtime 正在把科幻電影裡那種與 AI 自然對話的場景,拉到了我們眼前:一個更無縫、更人性化的人機互動時代,已經正式拉開序幕。


延伸閱讀

Introducing gpt-realtime and Realtime API updates for production voice agents,Open AI官網,20250828



留言
avatar-img
留言分享你的想法!
avatar-img
維那思的異想世界
8會員
94內容數
這裡分享維那思的日常與異想
2025/08/28
AI單次查詢耗能已與Google搜尋無異,請放心使用;但訓練強大的AI的過程卻是吞噬能源的巨獸,為了訓練更強大的模型,能源可能是真正重要的關鍵之一,正在引發一場決定未來霸權的全球競賽。 本文將為你揭開AI能源成本的驚人真相,以及你看不到正在開打的巨瓦級能源戰場。
Thumbnail
2025/08/28
AI單次查詢耗能已與Google搜尋無異,請放心使用;但訓練強大的AI的過程卻是吞噬能源的巨獸,為了訓練更強大的模型,能源可能是真正重要的關鍵之一,正在引發一場決定未來霸權的全球競賽。 本文將為你揭開AI能源成本的驚人真相,以及你看不到正在開打的巨瓦級能源戰場。
Thumbnail
2025/08/22
祖克伯高調喊話要打造「超級智慧」,卻在短短數月內宣布拆分實驗室,還傳出有人要走人! 新人超高年薪 → 老員工覺得資源被搶 投資人大撒幣 → 現在卻看不到成果 這會不會是下一個「元宇宙翻版」? 🤔
Thumbnail
2025/08/22
祖克伯高調喊話要打造「超級智慧」,卻在短短數月內宣布拆分實驗室,還傳出有人要走人! 新人超高年薪 → 老員工覺得資源被搶 投資人大撒幣 → 現在卻看不到成果 這會不會是下一個「元宇宙翻版」? 🤔
Thumbnail
2025/08/08
馬斯克佛心來著?xAI閃電開源Grok 2,看似慷慨的背後,其實是步步為營的商業策略,他如何利用「免費」作為打擊OpenAI的武器,並憑藉強大的「X平台即時數據」優勢來顛覆AI產業,為您解析相關理念、策略與真正目的...
Thumbnail
2025/08/08
馬斯克佛心來著?xAI閃電開源Grok 2,看似慷慨的背後,其實是步步為營的商業策略,他如何利用「免費」作為打擊OpenAI的武器,並憑藉強大的「X平台即時數據」優勢來顛覆AI產業,為您解析相關理念、策略與真正目的...
Thumbnail
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 人工智慧的未來是以使用者為中心,個人在與人工智慧系統的互動中扮演著越來越重要的角色。預計這種趨勢將催生被
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 人工智慧的未來是以使用者為中心,個人在與人工智慧系統的互動中扮演著越來越重要的角色。預計這種趨勢將催生被
Thumbnail
ChatGPT-4o已經開放給部分用戶使用了!! 兩周前,Open AI剛發布的ChatGPT-4o版本,令人驚豔!! 從原本只有文字的應用,就已經引起驚天動地的AI浪潮與各種應用如雨後春筍般的大量露出,還來不及學會各種應用時,長出眼睛跟耳朵的GPT4o竟然說來就來,而且還可以免費使用、體驗!?
Thumbnail
ChatGPT-4o已經開放給部分用戶使用了!! 兩周前,Open AI剛發布的ChatGPT-4o版本,令人驚豔!! 從原本只有文字的應用,就已經引起驚天動地的AI浪潮與各種應用如雨後春筍般的大量露出,還來不及學會各種應用時,長出眼睛跟耳朵的GPT4o竟然說來就來,而且還可以免費使用、體驗!?
Thumbnail
ChatGPT(全名:聊天生成預訓練轉換器)是一個由 OpenAI 開發的人工智慧聊天機器人程式。它於 2022 年 11 月推出,使用了基於 GPT-3.5、GPT-4 和 GPT-4o 架構的大型語言模型,並以強化學習進行訓練。
Thumbnail
ChatGPT(全名:聊天生成預訓練轉換器)是一個由 OpenAI 開發的人工智慧聊天機器人程式。它於 2022 年 11 月推出,使用了基於 GPT-3.5、GPT-4 和 GPT-4o 架構的大型語言模型,並以強化學習進行訓練。
Thumbnail
OpenAI在5/13春季發表會上宣佈,將免費向ChatGPT推出最新的GPT-4o模型和更多功能。免費用戶將可享受GPT-4o的智慧和高級工具,並有使用量限制。文章介紹了GPT-4o的功能和未來優化,並提到新的ChatGPT桌面應用程式和外觀改變。
Thumbnail
OpenAI在5/13春季發表會上宣佈,將免費向ChatGPT推出最新的GPT-4o模型和更多功能。免費用戶將可享受GPT-4o的智慧和高級工具,並有使用量限制。文章介紹了GPT-4o的功能和未來優化,並提到新的ChatGPT桌面應用程式和外觀改變。
Thumbnail
前年2022年11月OpenAI公司發表了ChatGPT,並開放ChatGPT-3.5在網路上供人免費下載試用,瞬間引爆了人工智慧的話題,能夠自我學習的ChatGPT以每天可見的變化在進步,讓人見識到人工智能的學習力,隨後OpenAI發表的GPT-4,讓人見識到GPT這個人工智慧系統有著令人驚訝的智
Thumbnail
前年2022年11月OpenAI公司發表了ChatGPT,並開放ChatGPT-3.5在網路上供人免費下載試用,瞬間引爆了人工智慧的話題,能夠自我學習的ChatGPT以每天可見的變化在進步,讓人見識到人工智能的學習力,隨後OpenAI發表的GPT-4,讓人見識到GPT這個人工智慧系統有著令人驚訝的智
Thumbnail
ChatGPT 是 OpenAI 開發的大型語言模型,以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段:預訓練和微調。 微調使用了 RLHF(Reinforcement Learning from Human Feedback)技術,可以有效地提高模型生成內容的質量。
Thumbnail
ChatGPT 是 OpenAI 開發的大型語言模型,以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段:預訓練和微調。 微調使用了 RLHF(Reinforcement Learning from Human Feedback)技術,可以有效地提高模型生成內容的質量。
Thumbnail
在這篇文章中,我們將探討如何利用ChatGPT這個強大的語言模型來學習其他語言,並比較其與Google翻譯的優缺點。無論你是想提升外語能力還是在跨文化交流中更加流暢,ChatGPT都是一個極具價值的工具。
Thumbnail
在這篇文章中,我們將探討如何利用ChatGPT這個強大的語言模型來學習其他語言,並比較其與Google翻譯的優缺點。無論你是想提升外語能力還是在跨文化交流中更加流暢,ChatGPT都是一個極具價值的工具。
Thumbnail
當你聽到「GPT」這三個字母時,你的腦海中會浮現什麼?是OpenAI掀起AI革命的明星產品ChatGPT🤖,抑或是其原本的技術術語「Generative Pre-trained Transformer」(生成型預訓練變換模型)? 事實上這不僅是一個關於詞彙理解的問題,更是一個關於商標權的故事。
Thumbnail
當你聽到「GPT」這三個字母時,你的腦海中會浮現什麼?是OpenAI掀起AI革命的明星產品ChatGPT🤖,抑或是其原本的技術術語「Generative Pre-trained Transformer」(生成型預訓練變換模型)? 事實上這不僅是一個關於詞彙理解的問題,更是一個關於商標權的故事。
Thumbnail
OpenAI推出的Custom GPTs可以讓你自己量身製作符合你自己需求的AI助手,客製化AI工具喂給他不同的資料產生的結果好壞程度也差很多,好的AI工具能夠幫大家更有效率解決很多問題,不過因為製作門檻很低,有非常大量的客製化GPTs已經在OpenAI的ChatGPT上,這篇推薦給大家的是蒐集整理
Thumbnail
OpenAI推出的Custom GPTs可以讓你自己量身製作符合你自己需求的AI助手,客製化AI工具喂給他不同的資料產生的結果好壞程度也差很多,好的AI工具能夠幫大家更有效率解決很多問題,不過因為製作門檻很低,有非常大量的客製化GPTs已經在OpenAI的ChatGPT上,這篇推薦給大家的是蒐集整理
Thumbnail
近日,OpenAI再度掀起AI領域的巨浪,宣布ChatGPT正式進化成GPT-4。這一次的更新不僅僅讓ChatGPT變得更聰明,還引入了圖像辨識和文本輸入功能,使得ChatGPT成為一個多模態的工具。本文將深入探討ChatGPT 4的新功能、付費方案以及其在不同領域的應用。
Thumbnail
近日,OpenAI再度掀起AI領域的巨浪,宣布ChatGPT正式進化成GPT-4。這一次的更新不僅僅讓ChatGPT變得更聰明,還引入了圖像辨識和文本輸入功能,使得ChatGPT成為一個多模態的工具。本文將深入探討ChatGPT 4的新功能、付費方案以及其在不同領域的應用。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News