在聊今天的主角之前,我想先分享一下我的個人體驗。目前我最常用的兩個大語言模型是 ChatGPT 和 Gemini,對我來說,Gemini 在分析能力和速度上比 ChatGPT 好用很多,特別是在處理複雜資料或需要快速歸納重點時。
然而,在語音聊天這塊,坦白說,即使在這次 GPT-Realtime 發表前,個人認為ChatGPT 就已經完勝 Gemini 了。ChatGPT 的語音對話邏輯更清晰、更不容易誤判我的意思,而且延遲已經非常低,聊起來很順暢。沒想到,他們現在又端出了更強大的技術突破,直接把語音互動的體驗提升到一個全新的境界。

語音互動將正式邁向「人性化夥伴」階段
人類與機器的語音互動,從最初生硬的指令與回應,一路進化至今,仍舊存在一道難以跨越的鴻溝:延遲。無論是智慧音箱、車載系統,或是客服語音助理,對話中短暫卻明顯的停頓,總會讓人意識到自己正在與一台機器溝通,而非進行一場流暢的交流。這種固有的延遲不僅影響了使用者體驗,更限制了語音 AI 在高即時性場景下的應用潛力。然而,OpenAI 近期推出的 GPT-Realtime 模型與其正式進入普遍可用(General Availability, GA)階段的 Realtime API,正宣告著這段「尷尬沉默」的歷史即將告一段落。這項技術不僅僅是前代模型的簡單升級,它所帶來的「零延遲」體驗,將從根本上重塑了語音 AI 的技術架構與市場格局。接下來將深入探討 GPT-Realtime 的核心技術與關鍵特色,並分析其對語音 AI 產業的深遠影響,揭示語音 AI 如何透過這項技術,從「功能性工具」邁向「人性化夥伴」的新紀元。
正式啟航:GPT-Realtime 發布
GPT-Realtime 的發布並非無預警。OpenAI 在 2025 年 8 月 28 日透過一場直播活動向開發者社群進行了高調的產品介紹與即時演示,展示其最新的語音對語音模型和 API 功能。這場展示獲得了廣泛關注。緊接著,在 2025 年 8 月 29 日,GPT-Realtime 正式推出,其 Realtime API 也隨之從測試版(Beta)進入了普遍可用階段。
這種分階段的發布模式,透露出 OpenAI 縝密的商業與技術策略。首先,早在 2024 年 10 月,Realtime API 就已進入公開測試階段,並獲得了數千名開發者的廣泛使用與回饋。這段漫長的測試期確保了該模型和 API 在可靠性、低延遲和高語音品質方面,已達到能成功部署於生產環境的標準。因此,透過8 月 28 日的直播向外界傳達「我們已準備就緒」的訊號,並透過現場演示來證明其技術實力,並於8 月 29 日正式推出,標誌產品已具備商業成熟度,可供企業與開發者廣泛採用,正式將語音 AI 從實驗室和測試環境,帶入廣大商用場景。
告別延遲的秘密:單一模型驅動的技術革命
要理解 GPT-Realtime 如何實現「零延遲」的突破,必須先回顧傳統語音 AI 系統所面臨的根本性挑戰。
傳統語音 AI 的「三步接力賽」模式
以前的語音 AI,受限於語言模型大小與技術框架,只能分開處理,運作起來就像一場三步接力賽,既耗時又繁瑣:
- 語音轉文字 (STT):首先,一個模型負責把你的聲音轉成文字。
- 大腦思考 (LLM):接著,另一個模型(像 GPT-4)讀取這些文字,思考如何回應。
- 文字轉語音 (TTS):最後,第三個模型再把生成好的文字答案,轉換成語音播放出來。
這整個過程,每一步都需要時間,所有延遲加總起來,就造成了我們常感受到的「停頓感」,讓對話顯得既不自然又很機械。
核心突破:端對端語音處理(一個模型搞定所有事)
GPT-Realtime 的厲害之處,就是徹底推翻了這套「接力賽」流程。它採用了革命性的「端對端」架構,簡單來說,就是只用一個模型,就直接「聽懂」你的聲音,並直接用聲音「回應」你。
這種做法帶來了兩大改變:
- 速度快到幾乎零延遲:因為省去了中間「語音轉文字」和「文字轉語音」的步驟,延遲被大幅縮短。幾乎可以在你話音剛落的瞬間,它就已經開始回應,創造了前所未有的流暢對話體驗。
- 能聽懂你的弦外之音:傳統方法在把語音轉成文字時,會丟失你說話的語氣、情緒、甚至笑聲這些重要資訊,但 GPT-Realtime 直接處理聲音,所以它能捕捉到這些細節;這就是為什麼它的回應聽起來更自然、更富感情,不再像個冷冰冰的機器人,而是一個能感知你情緒的對話夥伴。
實現「零延遲」的額外關鍵
值得注意的是,實現極低延遲是一個複雜的系統工程,並非單一模型就能完全解決。除了核心的端對端架構外,OpenAI 還透過其他技術優化來確保性能。例如,在提示工程方面,開發者可以透過精簡指令、設定 max_tokens
或 stop_sequences
來縮短模型生成回應的時間。此外,在後端基礎設施層面,負載平衡與高效的快取策略也至關重要,它們能夠在應對高併發流量時,避免單一伺服器過載而產生的延遲,確保服務的穩定性與反應速度。這些補充性的技術與核心架構共同作用,才共同構建了一個真正高效、低延遲的語音 AI 系統。
GPT-Realtime 的功能全景與應用前瞻
GPT-Realtime 的發布不僅帶來了技術架構的革命,同時也伴隨著一系列令人驚嘆的性能提升與新功能。
驚人的性能飛躍:基準測試數據解讀
OpenAI 提供了3種常見且具體的基準測試數據,量化展示了 GPT-Realtime 的顯著進步:
- Big Bench Audio 評估:這項評估主要測試模型的推理能力。GPT-Realtime 的準確率達到了 82.8%,相較於前代模型(2024 年 12 月版)的 65.6% 有了顯著提升。
- MultiChallenge 音訊基準測試:此測試衡量模型遵循複雜指令的準確度。GPT-Realtime 的準確度從前代的 20.6% 大幅提升至 30.5%。
- ComplexFuncBench 音訊評估:這項評估旨在衡量模型處理工具調用(function calling)的精確度。GPT-Realtime 的準確度達到了 66.5%,相較前代的 49.7% 有了明顯改進。
儘管在指令遵循等指標上,絕對值仍有進步空間,但這些數據足以證明 GPT-Realtime 在理解與執行能力上的全面進化。這也暗示了雖然模型已經可以投入生產環境,但在某些對精確度要求極高的複雜任務(如多步驟的客服流程)中,未來仍有技術迭代的必要性。

GPT-Realtime 進步量化比較(2024年12月與2025年8月)
賦予 AI 靈魂:更自然、更具表現力的聲音
為進一步提升語音互動的自然度,OpenAI 在 Realtime API 中推出了兩款獨家新聲音:「Cedar」和「Marin」。這些聲音在語調、情感和節奏上都經過了精心訓練,能夠更流暢地模仿人類說話的模式。模型現在可以根據指令產生更具表現力的語音,例如以「專業快速」或「充滿同理心」的方式說話,甚至能無縫地在不同語言間切換。這種對語音細節的精準控制,是實現真正自然對話體驗的關鍵一步。
為開發者解鎖更多可能性:API 新功能詳解
GPT-Realtime 的發布不僅限於模型本身的進化,OpenAI 同時也為其 Realtime API 加入了多項針對商業應用場景的關鍵功能。這表明 OpenAI 的戰略已不僅僅是提供一個通用的語言模型,更是要打造一個為企業提供「一站式
」語音解決方案的生態系。
- 圖像輸入支援(Image Input):此功能讓開發者可以在語音對話中加入圖像、照片或螢幕截圖。這使得模型能夠處理多模態的查詢,例如在客服場景中,客戶可以說「幫我看看這張螢幕截圖裡顯示了什麼問題」,極大地擴展了應用範圍。
- SIP 電話整合(SIP Phone Call Integration):這項功能允許 Realtime API 直接與公共電話網路、PBX 系統及其他 SIP 端點整合。這為開發者將 AI 語音代理直接部署在客服熱線、電話銷售等需要與現有電話系統連接的企業級場景提供了便利,甚至可以打造即時翻譯的語音解決方案,讓跨國溝通零距離。
- 遠端 MCP 伺服器支援(Remote MCP Server Support):透過此功能,開發者可以將遠端工具伺服器整合到語音會話中,無需手動編寫複雜的整合程式碼。這使得 AI 代理的工具調用能力可以輕鬆擴展,為複雜的企業系統提供了靈活的連接能力。
- 可重複使用的提示模板(Reusable Prompts):開發者可以儲存並重複使用包含開發者訊息、工具、變數和對話範例的提示模板。這不僅節省了開發時間,也確保了不同會話間的對話品質與一致性。
這些新功能,特別是 SIP 協議支援與遠端 MCP 整合,明確地將 OpenAI 的目標市場從單純的開發者,擴大到了對穩定性與功能性要求更高的企業級客戶。
洞察與展望:零延遲時代的市場格局與挑戰
GPT-Realtime 的發布,也標誌著語音 AI 市場的競爭進入了一個新的篇章。
語音 AI 的新戰場:從消費級到企業級
過去,語音 AI 多以消費級應用為主,然而,OpenAI 透過降低價格(相較於前代模型降低了 20%)並推出上述針對性功能,展現出其搶攻企業級市場的決心。這些功能直接解決了企業在部署語音客服、教育訓練和個人助理等應用時面臨的痛點;零延遲體驗不僅能提升客戶滿意度,更能優化業務流程,降低營運成本。語音 AI 的新戰場,正從單純的技術競賽,轉向企業服務與商業模式的深度融合。
競爭格局分析
在低延遲語音 AI 領域,OpenAI 並非獨行。市場上已有 Retell AI、PolyAI、Google Dialogflow CX 等眾多競爭者。例如,根據 2025 年 7 月的獨立測試,Retell AI 宣稱其平均端到端延遲為 620 毫秒,而 Google Dialogflow CX 的延遲則為 890 毫秒。
OpenAI 選擇在這一時間點,以「零延遲」之名發布 GPT-Realtime,其核心目的在於透過其強大的品牌影響力與革命性的技術架構,重新定義「低延遲」的標準。雖然物理上的零延遲是不可能實現的,但 OpenAI 的目標是將延遲縮減至人類感官難以察覺的水平,從而創造一種無縫、自然的對話錯覺。這不僅是一場技術實力的比拼,更是一場爭奪市場話語權的戰略布局。
未來的路:仍待解決的挑戰
儘管取得了巨大進步,我們仍需理性看待當前技術的局限性,在處理需要極高精確度、多步驟邏輯和複雜工具調用的企業場景時,AI 語音代理仍有改進空間。此外,在多方對話中的精確辨識與管理、應對不同口音和方言的適應性,以及處理更深層次的語境和情感細節,都將是未來技術迭代的重點方向。
結語:一個新時代的開始
OpenAI 的 GPT-Realtime 不只是一次技術更新,它更像是一個宣告:過去那種和機器對話時,總是要停頓一下、充滿尷尬沉默的時代,真的要結束了。
對於我們普通使用者來說,這意味著未來的語音助理、客服、甚至車內導航,都會變得更像一個真正的「夥伴」,而不只是一個冷冰冰的「工具」。你可以自然地和它聊天、打斷它、甚至跟它開玩笑,它都能即時且帶有情感地回應。這種流暢的互動,將徹底改變我們與科技相處的方式。
GPT-Realtime 正在把科幻電影裡那種與 AI 自然對話的場景,拉到了我們眼前:一個更無縫、更人性化的人機互動時代,已經正式拉開序幕。
延伸閱讀
Introducing gpt-realtime and Realtime API updates for production voice agents,Open AI官網,20250828