AI語音能加速有聲書製作,但AI語音TTS仍無法取代有聲書

更新於 2023/06/03閱讀時間約 1 分鐘
(本文寫於2023年4月23日,回覆董福興的臉書動態
我完全支持「要是哪一天AI語音真的能和真人一樣,你是不是應該導入來取代真人,而可以更快、更便宜地生產有聲書呢?」這個論點。
現在的有聲書製程,簡直堪比徒手抄書,技術基本上跟三十年前一樣,只差在電腦的容量與記憶體有所提升,但本質上並沒有什麼變化,遲遲無法進入有聲書的活字印刷術時代。我自己是非常期待含有AI成份的TTS技術輔助有聲書的製作。
然而,TTS功能與有聲書還是有著本質上的差異。以華語與華文的對應來說,口語體與書寫體的差距就是那麼大。文字上的編排並不總是有辦法直接TTS就讓人聽懂。舉個最簡單的例子:光是同音字「他她」就足以困擾一堆人了,更不要講相同文字搭配不同標點符號所造成的文意差距。這還只是冰山一隅。
TTS就只是把文字讀出聲音的輔具,並不代表TTS後的聲音就直接形成一個新產品。有聲書還是需要經過編輯,才能成為適合閱聽的產品,而含有AI成份的TTS技術會是節省有聲書產製工作量的一個絕佳幫手。
以中國百度執行長李彥宏的《智能交通》為例(他今年跌出政協委員名單了,幫QQ),這種講述趨勢、科技類的文字書,用AI技術轉為有聲書,在內容上已經堪可閱聽。
但這代表《智能交通》有聲書是一部聽者友善的作品嗎?我認為完全不是。書中句間、段間的間隔時長時短,使我的注意力時常跟丟;每一節前後的無謂工商時間,使我聽下來心浮氣躁;專有名詞未有適當註釋,使我只能根據前後文去猜測原始文字,再去蒐尋意思;有些段落的技術細節過多,其實應該刪節,根本不該讀成聲音。這些都是「編輯上」沒有做好的細節。
含有AI成份的TTS會是製作有聲書的好幫手;但有聲書的編輯工作,才是有聲書無法被電子書TTS取代的根本要素。電子書TTS帶給閱聽者的體驗,就只是TTS,就不是有聲書。
avatar-img
3會員
13內容數
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
余孟珂的沙龍 的其他內容
考慮到本片的敘事脈絡,我們可以合理推論這每一種唸法都帶有各自的政治立場與社會關係。這是「口語」做得到,而「文字」做不到的事。在電影字幕上,我們一律只看得到「文清」二字。
一般而言,在影視作品當中使用《安魂曲》,目的就是在暗示死亡的悲悽、陰沉與恐怖。但《黑暗榮耀》製作團隊選用了佛瑞的《安魂曲》,反而營造出一種終將獲得救贖的氛圍,可謂別出心裁。
對於拼音文字來說「我說即我寫」,但華「文」的方塊字卻不是如此,不僅同音字過多以致難以辨別(最簡單的例子是「他她牠它」),複雜歷史因素之下遺留在現代華「文」當中的文言文法(我寫非我說)也會造成聽覺理解障礙,種種因素都讓華文Text To華語Speech在短中期之內不可能完全取代華語有聲書。
我聽了這段demo,簡直聲歷其境,嚇死!😱 想說美國是這麼恐怖的地方嗎???(是。其實臺灣也是。)接著又看到Audible的介紹頁面,引用了聽者回饋,說這部有聲書"dramatically raises the bar on audiobooks",看來所言不假。於是就決定下單了。
我雖然不是天才少年,但要說我完全不能體會天才少年的心境,卻倒也並不精確。我小學唸了五年的智優資源班(大概唸到五年級就撐不太下去了,是硬撐唸完的),國中三年讀得稍微比較接地氣一點(雖然也還是當地的升學名校),高中則是進了一所法西斯主義氣息濃厚的第二志願。
作為產品觀察,這次聽的是Audible的Plus裡面的一門課程《The Art of Storytelling: From Parents to Professionals》。
考慮到本片的敘事脈絡,我們可以合理推論這每一種唸法都帶有各自的政治立場與社會關係。這是「口語」做得到,而「文字」做不到的事。在電影字幕上,我們一律只看得到「文清」二字。
一般而言,在影視作品當中使用《安魂曲》,目的就是在暗示死亡的悲悽、陰沉與恐怖。但《黑暗榮耀》製作團隊選用了佛瑞的《安魂曲》,反而營造出一種終將獲得救贖的氛圍,可謂別出心裁。
對於拼音文字來說「我說即我寫」,但華「文」的方塊字卻不是如此,不僅同音字過多以致難以辨別(最簡單的例子是「他她牠它」),複雜歷史因素之下遺留在現代華「文」當中的文言文法(我寫非我說)也會造成聽覺理解障礙,種種因素都讓華文Text To華語Speech在短中期之內不可能完全取代華語有聲書。
我聽了這段demo,簡直聲歷其境,嚇死!😱 想說美國是這麼恐怖的地方嗎???(是。其實臺灣也是。)接著又看到Audible的介紹頁面,引用了聽者回饋,說這部有聲書"dramatically raises the bar on audiobooks",看來所言不假。於是就決定下單了。
我雖然不是天才少年,但要說我完全不能體會天才少年的心境,卻倒也並不精確。我小學唸了五年的智優資源班(大概唸到五年級就撐不太下去了,是硬撐唸完的),國中三年讀得稍微比較接地氣一點(雖然也還是當地的升學名校),高中則是進了一所法西斯主義氣息濃厚的第二志願。
作為產品觀察,這次聽的是Audible的Plus裡面的一門課程《The Art of Storytelling: From Parents to Professionals》。
你可能也想看
Google News 追蹤
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
文/YUHSHAN 圖/LINE 進入2024年的後疫情時代,人類多已恢復正常社交生活、出外用餐聚會,但餐廳面臨新問題——缺工,老闆和員工在接受電話訂位和現場服務之間應接不暇,陷入越忙越亂的困境。為了解決缺工問題,台灣大哥大、LINE、inline、碩網資訊等企業整合各自優勢,推出「AI語
Thumbnail
Suno 是一款免費的 AI 音樂生成工具,只要輸入文字就能輕鬆作曲,無論是英文、中文歌曲,都能依照指定風格生成一首歌曲,最近開放 V3 模型,可以使用V3 模型生成 2 分鐘的歌曲,沒有任何音樂知識,也能輕鬆創作。
Thumbnail
本片原文:日語學習革命:細節到位,連一個音、一個逗點也能精確解釋,又易學 https://vocus.cc/article/6555fc5efd89780001d09434
Thumbnail
目前我使用Zapier的方式,是先上傳一個我在手機上錄的聲音檔(m4a格式)到Googl Drive,然後把聲音檔案串接到OpenAI的Whisper API作為語音辨識的手段,將手機上錄的聲音黨轉換成
Thumbnail
隨著人工智能技術的不斷發展,語音辨識AI作為其中的重要應用之一,正逐漸改變著我們的生活和工作方式。本文將介紹語音辨識AI的原理、應用以及其在不同領域的潛在價值。 嵐海智能|語意分析|智能客服|生成式AI
Thumbnail
要為展覽製作不同語言的解說錄音,但找不到合適的配音人?現今的博物館已經不再只是單一的展示文物,而是透過多媒體的方式來呈現文物背後的故事、歷史和文化背景。 其中一個重要的元素是語音導覽,能夠讓前來參觀的民眾更深入地了解展品和展覽的內容。
近年來,人工智能(AI)在語言理解和情感分析方面取得了重要進展。通過機器學習和自然語言處理(NLP)技術......
Thumbnail
本文介紹了一種全程免費的方法來快速將長時間的音檔轉為逐字稿,不需要花費任何費用。作者建議使用OpenAI的Playground,其中有一個語音轉文字的功能,並支援多種語言。相較於其他需要付費的AI語音轉文字程式,OpenAI的Playground效果非常好,是會議記錄人員的福音。現在,你不需要再花費
Thumbnail
被吸屁屁鬼傻瓜生成機器吸了兩次後,傻瓜加傻瓜就變成了超級菁英!2021年的蠟筆小新電影,狠狠的嘲諷了菁英階級制度,和AI導入教育管理方式。 看到最近AI火紅,再回頭看這部電影格外有感,導入菁英教學和AI管理的學院,校長要AI想辦法讓菁英培育快一點,AI服從指令,但不思考教育要如何改變,只思考要怎麼完
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
文/YUHSHAN 圖/LINE 進入2024年的後疫情時代,人類多已恢復正常社交生活、出外用餐聚會,但餐廳面臨新問題——缺工,老闆和員工在接受電話訂位和現場服務之間應接不暇,陷入越忙越亂的困境。為了解決缺工問題,台灣大哥大、LINE、inline、碩網資訊等企業整合各自優勢,推出「AI語
Thumbnail
Suno 是一款免費的 AI 音樂生成工具,只要輸入文字就能輕鬆作曲,無論是英文、中文歌曲,都能依照指定風格生成一首歌曲,最近開放 V3 模型,可以使用V3 模型生成 2 分鐘的歌曲,沒有任何音樂知識,也能輕鬆創作。
Thumbnail
本片原文:日語學習革命:細節到位,連一個音、一個逗點也能精確解釋,又易學 https://vocus.cc/article/6555fc5efd89780001d09434
Thumbnail
目前我使用Zapier的方式,是先上傳一個我在手機上錄的聲音檔(m4a格式)到Googl Drive,然後把聲音檔案串接到OpenAI的Whisper API作為語音辨識的手段,將手機上錄的聲音黨轉換成
Thumbnail
隨著人工智能技術的不斷發展,語音辨識AI作為其中的重要應用之一,正逐漸改變著我們的生活和工作方式。本文將介紹語音辨識AI的原理、應用以及其在不同領域的潛在價值。 嵐海智能|語意分析|智能客服|生成式AI
Thumbnail
要為展覽製作不同語言的解說錄音,但找不到合適的配音人?現今的博物館已經不再只是單一的展示文物,而是透過多媒體的方式來呈現文物背後的故事、歷史和文化背景。 其中一個重要的元素是語音導覽,能夠讓前來參觀的民眾更深入地了解展品和展覽的內容。
近年來,人工智能(AI)在語言理解和情感分析方面取得了重要進展。通過機器學習和自然語言處理(NLP)技術......
Thumbnail
本文介紹了一種全程免費的方法來快速將長時間的音檔轉為逐字稿,不需要花費任何費用。作者建議使用OpenAI的Playground,其中有一個語音轉文字的功能,並支援多種語言。相較於其他需要付費的AI語音轉文字程式,OpenAI的Playground效果非常好,是會議記錄人員的福音。現在,你不需要再花費
Thumbnail
被吸屁屁鬼傻瓜生成機器吸了兩次後,傻瓜加傻瓜就變成了超級菁英!2021年的蠟筆小新電影,狠狠的嘲諷了菁英階級制度,和AI導入教育管理方式。 看到最近AI火紅,再回頭看這部電影格外有感,導入菁英教學和AI管理的學院,校長要AI想辦法讓菁英培育快一點,AI服從指令,但不思考教育要如何改變,只思考要怎麼完