週報 Weekly I/O #8

AI語音的價值

隨著人工智慧技術的飛速發展，AI語音生成技術（Text-to-Speech，簡稱TTS）在過去幾年取得了革命性進展，從最初的機械化聲音到如今逼真、自然且情感豐富的語音，AI 語音正在改變我們與聲音互動的方式。從影視配音到語音助手，從播客製作到教育應用，AI語音的價值正逐漸顯現，並在商業與創意領域掀起一場變革。

技術演進：從機械到擬人

AI 語音技術的發展歷程可追溯至2017年谷歌發布的 Tacotron 模型，這是首個端到端的神经网络语音合成系统。Tacotron 通過將文本轉化為字符，再經由編碼器生成包含音素、語義等特徵的「理解向量」，最終通過解碼器和注意力機制生成梅爾頻譜圖，轉化為可播放的語音波形。這種方式雖開創性，但因假設文字與語音一一對應，無法支持多語者或聲音克隆，且生成速度慢，限制了其應用。

2019年，微軟推出的 FastSpeech 模型解決了這些問題。通過「持續時間預測器」和「長度調節器」，FastSpeech 實現了非自回歸生成，生成速度比 Tacotron 快 270 倍，穩定性更高，且能靈活調整語速與語調，成為當時業界新標準。

2021年，韓國研究者提出的VITS模型進一步提升了語音合成的自然度和靈活性。VITS 結合變分自編碼器（VAE）與流匹配（Flow Matching）框架，通過先驗網絡預測語調、速度等潛在變量，使語音生成更加多樣化，適用於聲音轉換與變聲器等場景。VITS 的自動對齊技術也無需人工標註數據，讓生成過程更高效。

2023年，微軟的 VALL-E 模型將語音合成轉化為語言建模問題，通過離散的音頻編碼（token）實現零樣本學習，只需幾秒鐘的聲音樣本即可模仿任意語者的聲音，保留其情感與語調。這一技術為多模態應用，如圖像到語音、視頻到語音，提供了統一架構。

2025年，MiniMax 的 Speech-02 模型在全球榜單上超越 OpenAI 和 ElevenLabs，實現了任意語言、口音與音色的無限組合。其創新包括升級的音色提取編碼器、零樣本學習技術，以及基於 Flow-VAE 的潛在流匹配模型，確保語音生成的自然度、穩定性和情感表現力。MiniMax 的語音錯誤率低於真人，生成價格僅為競爭對手的1/2至1/4，極大降低了應用門檻。

商業應用：效率與創意的雙重提升

AI 語音技術的進步為多個領域帶來了顛覆性改變。在內容創作中，AI語音可快速克隆主持人聲音，用於補錄或改稿，大幅提升後期製作效率。例如，MiniMax 的模型能生成自然流暢的普通話旁白，取代傳統地鐵廣播式的機械音，甚至支持長達 20 萬字符的有聲書製作。此外，AI語音在影視配音、播客製作、遊戲互動、以及教育領域的語音陪練（如高途的「AI 吳彦祖」口語課程）中展現了巨大潛力。這些應用不僅提升效率，還為視障人士、不識字人群等提供了更多可及性內容。

在商業場景中，AI 語音正推動語音助手和客服中心的智能化。MiniMax 的聲音分離技術還能從新聞素材中剔除背景音樂，為後期製作提供便利。這些技術的低成本與高性能正加速其在 2B 與 2C 市場的落地。

挑戰與解決方案：語音版權與安全性

隨著 AI 語音技術的普及，語音克隆的便利性也帶來了版權與安全隱患。例如，OpenAI 的 4o 模型因聲音酷似斯嘉麗·約翰遜而引發爭議。為此，業界正積極推進聲紋鑑定、聲簽授權及聲音水印技術，確保生成的語音可追溯其來源、授權狀態及真偽。這些解決方案旨在讓 AI 語音技術更合規，促進其大規模應用。

未來展望

AI語音的價值正從「逼真度的質疑」轉向「如何更好利用」。如同修圖軟件未摧毀攝影，AI 語音也不會取代人類聲音，而是催生更多管理與認證標準，讓人機語音交互更透明、可信。從影視到教育，從娛樂到助殘，AI 語音正在重塑聲音的應用邊界。隨著技術的不斷進步，《Her》中描繪的絲滑語音交互或將比預期更快到來，開啟一個充滿創意與效率的未來。

重新發明輪子

在快速變化的數位時代，創新並非總是從零開始。相反，重新審視與改進現有概念——如同「重新發明輪子」——能激發深遠影響。

傳統觀念常認為「重複發明輪子」是浪費時間，但事實上，重新審視基礎技術或流程，能揭示隱藏的潛力。例如，軟體開發中的框架或工具，透過反覆迭代，能適應新需求，提升效率。這種「重塑」並非盲目複製，而是以洞察力挖掘問題根源，進而優化解決方案。

重複使用的力量在於其可持續性。以開源專案為例，開發者共享程式碼，允許他人基於既有基礎快速構建新應用。這不僅節省資源，還能促進社群協作，放大影響力。企業亦可借鑑此模式，重新利用內部數據或流程，結合新技術如 AI，創造更智慧的商業模式。

然而，重塑洞察力需避免陷入慣性思維。必須深入分析需求，挑戰既有假設，並融入跨領域知識。例如，將設計思維應用於技術開發，能讓產品更貼近使用者需求。這種跨界融合，正是產生突破性影響的關鍵。

重塑洞察力並非單純改進，而是以智慧與創意重新定義問題，進而創造價值。無論是個人、企業或社群，透過重複使用既有資源，並注入新思維，都能激發深遠影響，推動持續進步。

日本民間的宇宙新創公司「 ispace」將於 6 月 6 日挑戰登陸月球

這場名為「Mission 2 」的任務，不只是太空技術的突破，更標誌著月球商業化時代的來臨。

iSpace 成立於2010年，總部位於東京，致力於月球探勘與資源開發，目標成為全球領先的月球經濟企業。其核心業務包括月球著陸器（Lunar Lander）開發、月球數據服務及資源開採技術，特別聚焦月球水資源的開採與利用，作為未來太空燃料與能源的基礎。

日本 iSpace 的商業模式以「月球即服務」（Moon-as-a-Service）為核心，透過提供月球運輸、數據收集及資源開採解決方案，服務政府與商業客戶。公司參與了多項國際合作，例如 NASA 的 CLPS 計畫，承接月球任務。2022年，iSpace 成功發射首個商業月球著陸器「HAKUTO-R」，雖未成功著陸，但為後續任務累積寶貴經驗。

iSpace 的優勢在於其技術創新與國際合作能力，但也面臨高成本、技術風險及市場不確定性挑戰。日本政府積極推動太空產業，iSpace 獲得政府與民間資金支持，顯示其在日本新興太空經濟中的關鍵角色。

後記

（法新社東京6日電）日本新創公司 ispace 登月任務宣告失敗。該公司研判，硬著陸的可能性很高。

日本科學家開發的人造血液技術

根據《Tokyo Weekender》的報導，這項人造血液技術在理論上具有革命性的實際效益，特別是在解決血型匹配、儲存難題和血源短缺方面，對緊急醫療和全球醫療系統（尤其低收入國家）有重大潛力。然而，其實際效益取決於未來試驗的安全性結果、生產成本的控制以及醫療系統的接受度。目前的進展令人樂觀，但仍需謹慎看待其商業化和廣泛應用的可行性。

班克斯（Banksy）於法國馬賽（Marseille）推出新作品

班克斯（Banksy）於 2025 年 5 月 29 日在法國馬賽（Marseille）推出新作品，這是他五個月來的首件公開壁畫。

作品位於一條寧靜街道的米色牆面上，描繪一座黑色燈塔，燈塔的陰影與旁邊一根金屬柱的實際陰影巧妙融合，營造視覺錯覺。壁畫上以白色字體寫著「I want to be what you saw in me」（我想成為你在我身上看到的）。

這句話被認為可能受到美國鄉村樂團 Lonestar 的歌曲《Softly》啟發，歌詞中有類似表述。與班克斯過往常帶社會政治批判的作品相比，這件作品更具個人情感與哲學反思，引發網友熱議其意涵，認為燈塔象徵希望與指引。

馬賽市長稱讚此作，當地居民也表示興奮，認為這為城市增添藝術活力。

AI語音的價值

重新發明輪子

日本民間的宇宙新創公司「 ispace」 將於 6 月 6 日挑戰登陸月球

日本科學家開發的人造血液技術

班克斯（Banksy）於法國馬賽（Marseille）推出新作品

日本民間的宇宙新創公司「 ispace」將於 6 月 6 日挑戰登陸月球