聲音經濟 (Voice Economy) 是指以聲音為基礎的商業模式、技術與應用,用於創造價值和增加用戶體驗,舉凡音樂數位下載、串流媒體、電話行銷/客服、語音導覽、廣播/有聲書/Podcast...等皆代表一定規模的市場價值 。如今在AI浪潮席捲下,藉由AI改變聲音的創作、傳播與消費而將聲音轉換為商業價值和新機會,已掀起另一波商業革命,筆者預期將大幅改變我們與科技和品牌互動的方式。
(參考來源:1. 聲音經濟:從語音助理、Podcast到智慧音箱,科技巨頭爭相搶進的新市場 2. How Consumers Want to Live in the Voice Economy | PYMNTS)
聲音經濟之興起從聲音數位化 (Digitalization) 帶動聲音科技進步開始。當類比 (Analog) 訊號走入歷史,數位時代無論聲音之品質、傳遞及保存方式,皆克服了過往類比時代的種種不便及限制。隨後因網路科技蓬勃發展,伴隨各類型裝置 (如MP3、iPod、智慧型手機、平板等)、媒體平台 (例如串流影音) 的問世,造就消費者習慣改變而衍生出許多不同的商業需求,例如音樂數位下載、線上收聽、語音導覽/客服、Podcast等。近幾年Covid-19的肆虐衝擊,更促進了非接觸式聲音經濟的蓬勃發展。
進入AI時代後,由於自然語音處理 (NLP, Neuro-Linguistic Programming)、機器學習 (ML, Machine Learning)、大型語言模型 (LLM, Large Language Models) 和語音識別 (ASR, Automatic Speech Recognition) 等技術日益成熟,聲音科技在商業模式上的應用逐漸邁入新的紀元。從以下研究整理,可以顯見AI世代聲音經濟的龐大商機。
虛擬助理 (Virtual Assistant) 是一種基於AI科技實現理解使用者輸入之命令或問題並提供回應 (包含回答或執行任務) 之技術,可透過文字、圖形介面或語音 (通常結合聊天機器人功能來模擬人類對話) 等方式與用戶互動。在科技大廠的帶動下,AI語音助理已大量應用在各類型智慧型裝置上,較知名者包括蘋果的Siri、亞馬遜Alexa、Google Assistant和三星的Bixby;而各行業公司也經常將某種虛擬助理技術納入其客戶服務或支援之中。(參考來源:Virtual assistant | 維基百科)
據IMIR研究分析師表示,2021年全球AI語音助理市場規模為29億美元,預計到2028年將達到150億美元,2021年至2028年複合年增長率為28%。(參考來源:Global Voice Assistant Market Research Report | IMIR)
智慧音箱 (Smart Speaker) 是一種無線智慧家居音訊設備,可透過語音命令啟動聽音樂、訂餐、線上購物等,並使用多種連接類型來提供環控、保全等附加功能。根據Verified Market Research研究報告,2021年智慧音箱市場規模為80.2億美元,預計到2030年將達到320.5億美元,2022年至2030年複合年增長率為16.65%。(參考來源:Smart Speaker Market Size And Forecast | VMR)
根據Statista Consumer Insights 2022年美國智慧音箱市佔率調查結果,美國智慧音箱用戶中有67%擁有Amazon Echo,Google Home及其繼任產品Google Nest受歡迎程度排名第二 (27%) 和第四 (18%) ,21%家中擁有HomePod,而Sony亦躋身前五名。(參考來源:Amazon Dominates the U.S. Smart Speaker Market | statista)
在眾多生成式AI當中,AI文字生成語音 (TTS, Text-to-Speech) 是一種透過AI將文字腳本轉換為人類自然語音的人工智慧技術,可用於產生電影、廣告、遊戲和其他用途的人聲而大幅減少錄製真實語音的時間及成本。據market.us估計至2032年,AI語音生成市場規模將達到49億美元,年複合成長率15.40%。潛力市場涵蓋醫療保健、銀行/金融服務/保險、製造、廣告和媒體及其他最終用途行業,並應用於包括聊天機器人、虛擬助理和語音設備等。(參考來源:AI Voice Generator Market Research | market.us)
語音辨識和語音合成是長久以來人工智慧技術發展的重點,其語音呈現的擬真與自然程度足以反映AI科技成熟度。在Google、微軟、蘋果等科技先驅引領下,現今AI生成語音已進入百家爭鳴,除了跨越多國語言藩籬,其自然度也多能貼近真實人聲。例如筆者任職公司所推出的TTS服務 - ATEN優聲學,便是其中標榜在地化純正台灣口音、有溫度的擬真AI voice而獨樹一格。
近年來,憑藉媒體生態與消費習慣轉變、無線耳機普及和Apple Podcast和Spotify等串流平台的全力支持,Podcast從小眾自媒體搖身一變成了各界搶進的新興主流媒體。根據IAB和PWC分析,2025年美國Podcast廣告收入估計將成長一倍以上,達到40億美元左右。(參考來源:U.S Podcast Advertising Revenue Study 2023 | IAB and PWC)
台灣Podcast的興起雖起步較晚,然據SoundOn聲浪發表之報告,2022年台灣Podcast商案合作市值估計近10億元,使得2022年被譽為台灣聲音變現元年,未來成長潛力可期。(參考來源:2022年度聲音經濟報告書 | SoundOn)
而AI也可說是Podcast興盛的幕後推手之一,例如Spotify串流媒體平台創立以來在市場獲得無比成功,總市值達到470億美元 (參考來源:Google Finance 2024-2-15收盤),背後即是基於強大的深度學習技術改善其個人化及推薦功能。此外,Spotify於2023-9-25發表podcast語音翻譯試播功能 (Voice Translation for podcast),這是一項由AI提供支援的突破性技術,可將podcast翻譯成其他語言 (包括西班牙語、法語和德語),驚人的是,全部以podcasters的原音呈現。相信讀者不難想像,在此項技術更為成熟之後,將大幅造就Podcast另一波全球影響力。(參考來源:Voice Translation on Spotify)
從以上產業趨勢可知,聲音經濟在科技持續進化和AI的推波助瀾之下,勢將衍生更多創新、便利和個人化應用,而產生極大的商業模式創新和創業機會。然而AI隱含的法律、隱私、倫理和安全性議題仍有待時間考驗與秩序調合,而多國語系與自然發音的隔閡也挑戰語音科技的後續發展,這一切都值得我們更多的資源投入與密切關注。