AI語音TTS可以取代有聲書嗎?

閱讀時間約 3 分鐘
(本文寫於2023年2月6日,回覆董福興的臉書動態
關於「有聲書可以透過TTS朗讀」這點,我認為這當中還是有很多細節待商榷。
首先,對於拼音文字來說「我說即我寫」,但華「文」的方塊字卻不是如此,不僅同音字過多以致難以辨別(最簡單的例子是「他她牠它」,但不只如此),複雜歷史因素之下遺留在現代華「文」當中的文言文法(我寫非我說)也會造成聽覺理解障礙(註1),種種因素都讓華文Text To華語Speech在短中期之內不可能完全取代華語有聲書。長期來說,不知道AI能不能代為優化TTS文本,但以現在的技術來說,這並不「簡單」。
其次,想要以TTS取代有聲書,不同文類也會面對不同的難點。以小說而言,作者可能出於各種原因,將對白放在或不放在引號內,來達成不同的文意,但引號卻難以被TTS(註2),甚至華「文」書寫中的所有標點符號都是如此。而若以專業書籍而言,當作者引進一個新詞彙,某些可以望「文」生義的詞彙,聽覺上卻並不是如此。這些問題都可以透過某些編輯或表演手法使得有聲書成立,但direct TTS卻不成立。
第三,就實際情況而言,就算今天臺灣的電子書全都開通了TTS功能,且需要TTS的聽者/讀者都願意使用這個功能,臺灣作者的文字能力與文字書編輯的編輯觀,也不見得能使TTS直接取代有聲書。光是你我這兩篇文章,在未經適當編輯之下,都不可能直接TTS而讓人聽懂。
我同意TTS可以補足有聲書產能不足所造成的可近障礙(因此我個人贊成已取得TTS授權的出版品都應該開通TTS,而出版商也應該更積極爭取TTS授權),但我認為TTS只是「輔具」,並不是一個獨立的出版品(否則我們難以解釋,為何就算英語世界的電子書普遍都開通了TTS,出版商仍然要花錢錄製有聲書)。我相信具有AI成分的TTS技術可以大幅提升有聲書的產製效能,但「有聲書可以透過TTS朗讀」這個說法如果仔細探究,至少在臺灣的脈絡下,實在無法講得那麼絕對(註3)。
--
註1:比方說,你寫的「但都應該要花力氣做,做好」,你的意思其實是「但都應該要花力氣做,並且把事情做好」,然而如果未經人工校正就直接TTS,一般人的聽覺應該會直接在「做好」那裡當機。
註2:目前在西方媒體上的TTS功能,AI會將"唸成quote、unquote。媒體報導的篇幅短小(再長也不過數千字),且以報導性質居多,我們多聽幾次quote, quote, quote,心情上仍可接受。但短篇小說至少也是萬字起跳,若是把quote全部唸出來,將十分影響聆聽體驗。
註3:其實日語有聲書也有同音異字的困擾。我個人就聽過湊佳苗《往復書簡》有聲書當中的一篇故事,利用同音異字造成故事中的一個重大情節發展(暫且不去論斷這個寫作手法是否成功)。其實編輯可以透過補述,讓同音異字的兩者有所區別;但因為「把文字直接讀成有聲書」的這種編輯觀念仍然相當普遍,使得這部有聲書在聽覺上反而抓不到那個趣味了。
3會員
13Content count
留言0
查看全部
發表第一個留言支持創作者!
余孟珂的沙龍 的其他內容
我聽了這段demo,簡直聲歷其境,嚇死!😱 想說美國是這麼恐怖的地方嗎???(是。其實臺灣也是。)接著又看到Audible的介紹頁面,引用了聽者回饋,說這部有聲書"dramatically raises the bar on audiobooks",看來所言不假。於是就決定下單了。
我雖然不是天才少年,但要說我完全不能體會天才少年的心境,卻倒也並不精確。我小學唸了五年的智優資源班(大概唸到五年級就撐不太下去了,是硬撐唸完的),國中三年讀得稍微比較接地氣一點(雖然也還是當地的升學名校),高中則是進了一所法西斯主義氣息濃厚的第二志願。
作為產品觀察,這次聽的是Audible的Plus裡面的一門課程《The Art of Storytelling: From Parents to Professionals》。
這種題材在口語上的演繹風格並不需要太過繁複、花俏;沉穩但偶有起伏的說話方式就已經非常適合。我認為在口語表現上,這已經是一部成熟的作品;然而在編排上,這部作品還有很大的精步空間。閱聽者也需要自己用大腦過濾掉中國共產黨的政治宣傳。
當代的臺灣華語,已經是融合了各種語言特色、有別於「普通話」的一種華語了,兒化韻已經弱化到幾乎不見。因此,當我聽到在給兒童的有聲書中,仍然充滿著「等會兒(hu-r)」、「小孩兒(ha-r)」、「這件事兒(sh-r)」這種表演方式,就不免感到不合時宜。
關於《偶然與想像》,很多人已經針對劇本發表感想與分析了。但《偶然與想像》在聲音的設計上,也是極其日式精細的。我想來記錄一下三個深深鐫印在我心中的聲音時刻。盡量不劇透,但還是難免有一點點透。
我聽了這段demo,簡直聲歷其境,嚇死!😱 想說美國是這麼恐怖的地方嗎???(是。其實臺灣也是。)接著又看到Audible的介紹頁面,引用了聽者回饋,說這部有聲書"dramatically raises the bar on audiobooks",看來所言不假。於是就決定下單了。
我雖然不是天才少年,但要說我完全不能體會天才少年的心境,卻倒也並不精確。我小學唸了五年的智優資源班(大概唸到五年級就撐不太下去了,是硬撐唸完的),國中三年讀得稍微比較接地氣一點(雖然也還是當地的升學名校),高中則是進了一所法西斯主義氣息濃厚的第二志願。
作為產品觀察,這次聽的是Audible的Plus裡面的一門課程《The Art of Storytelling: From Parents to Professionals》。
這種題材在口語上的演繹風格並不需要太過繁複、花俏;沉穩但偶有起伏的說話方式就已經非常適合。我認為在口語表現上,這已經是一部成熟的作品;然而在編排上,這部作品還有很大的精步空間。閱聽者也需要自己用大腦過濾掉中國共產黨的政治宣傳。
當代的臺灣華語,已經是融合了各種語言特色、有別於「普通話」的一種華語了,兒化韻已經弱化到幾乎不見。因此,當我聽到在給兒童的有聲書中,仍然充滿著「等會兒(hu-r)」、「小孩兒(ha-r)」、「這件事兒(sh-r)」這種表演方式,就不免感到不合時宜。
關於《偶然與想像》,很多人已經針對劇本發表感想與分析了。但《偶然與想像》在聲音的設計上,也是極其日式精細的。我想來記錄一下三個深深鐫印在我心中的聲音時刻。盡量不劇透,但還是難免有一點點透。
你可能也想看
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
文/YUHSHAN 圖/LINE 進入2024年的後疫情時代,人類多已恢復正常社交生活、出外用餐聚會,但餐廳面臨新問題——缺工,老闆和員工在接受電話訂位和現場服務之間應接不暇,陷入越忙越亂的困境。為了解決缺工問題,台灣大哥大、LINE、inline、碩網資訊等企業整合各自優勢,推出「AI語
Thumbnail
EF Hello app 利用先進的人工智慧技術提升學習者英語能力,有助於在聽、說、讀、寫各方面的英語能力。採用 AI 擬真對話練習,適合害羞人士,並提供多元學習機制、模組化設計及學習習慣養成。此外,更新與 AI 夥伴對話角色扮演功能,提升溝通技巧。適合各種英語學習者。
Thumbnail
文章討論了最新的AI語音模型 - GPT-40,以及AI語音可能對配音產業帶來的影響。當AI取代了某些類別的配音工作後,是否有新類別的配音需求因此崛起提升?未來的配音產業結構將會與現在非常不同,配音從業人員需提供更有價值的服務。儘管AI語音的興起可能對真人配音產生影響,但作者對未來仍保持樂觀態度。
Thumbnail
據我所知,許多配音員老師是很反對去錄AI語音採樣的,但我則是抱持著不同的想法。昨天在九號群裡,和在線的伙伴們聊了一下我的想法,列出了很多應用場景,供大家自我判斷是否適合去錄AI語音採樣。 本篇內容是為剛從聲音培訓班結業、自我訓練一段時間、對聲音表演有興趣,但是不想成為配音員....等非職業配音員的
Thumbnail
寫作其實不是一件容易的事情,除了要有靈感外,長時間撰寫其實對於手部也是很大的負擔,如果你平日工作又是高強度使用鍵盤更是如此。 這邊我會分享我自己如何使用 AI 來幫助我更輕鬆跟高效的產出,除了輕鬆外,也讓效率大幅的提升。
Thumbnail
隨著人工智能技術的不斷發展,語音辨識AI作為其中的重要應用之一,正逐漸改變著我們的生活和工作方式。本文將介紹語音辨識AI的原理、應用以及其在不同領域的潛在價值。 嵐海智能|語意分析|智能客服|生成式AI
Thumbnail
要為展覽製作不同語言的解說錄音,但找不到合適的配音人?現今的博物館已經不再只是單一的展示文物,而是透過多媒體的方式來呈現文物背後的故事、歷史和文化背景。 其中一個重要的元素是語音導覽,能夠讓前來參觀的民眾更深入地了解展品和展覽的內容。
近年來,人工智能(AI)在語言理解和情感分析方面取得了重要進展。通過機器學習和自然語言處理(NLP)技術......
Thumbnail
本文介紹了一種全程免費的方法來快速將長時間的音檔轉為逐字稿,不需要花費任何費用。作者建議使用OpenAI的Playground,其中有一個語音轉文字的功能,並支援多種語言。相較於其他需要付費的AI語音轉文字程式,OpenAI的Playground效果非常好,是會議記錄人員的福音。現在,你不需要再花費
Thumbnail
被吸屁屁鬼傻瓜生成機器吸了兩次後,傻瓜加傻瓜就變成了超級菁英!2021年的蠟筆小新電影,狠狠的嘲諷了菁英階級制度,和AI導入教育管理方式。 看到最近AI火紅,再回頭看這部電影格外有感,導入菁英教學和AI管理的學院,校長要AI想辦法讓菁英培育快一點,AI服從指令,但不思考教育要如何改變,只思考要怎麼完
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
文/YUHSHAN 圖/LINE 進入2024年的後疫情時代,人類多已恢復正常社交生活、出外用餐聚會,但餐廳面臨新問題——缺工,老闆和員工在接受電話訂位和現場服務之間應接不暇,陷入越忙越亂的困境。為了解決缺工問題,台灣大哥大、LINE、inline、碩網資訊等企業整合各自優勢,推出「AI語
Thumbnail
EF Hello app 利用先進的人工智慧技術提升學習者英語能力,有助於在聽、說、讀、寫各方面的英語能力。採用 AI 擬真對話練習,適合害羞人士,並提供多元學習機制、模組化設計及學習習慣養成。此外,更新與 AI 夥伴對話角色扮演功能,提升溝通技巧。適合各種英語學習者。
Thumbnail
文章討論了最新的AI語音模型 - GPT-40,以及AI語音可能對配音產業帶來的影響。當AI取代了某些類別的配音工作後,是否有新類別的配音需求因此崛起提升?未來的配音產業結構將會與現在非常不同,配音從業人員需提供更有價值的服務。儘管AI語音的興起可能對真人配音產生影響,但作者對未來仍保持樂觀態度。
Thumbnail
據我所知,許多配音員老師是很反對去錄AI語音採樣的,但我則是抱持著不同的想法。昨天在九號群裡,和在線的伙伴們聊了一下我的想法,列出了很多應用場景,供大家自我判斷是否適合去錄AI語音採樣。 本篇內容是為剛從聲音培訓班結業、自我訓練一段時間、對聲音表演有興趣,但是不想成為配音員....等非職業配音員的
Thumbnail
寫作其實不是一件容易的事情,除了要有靈感外,長時間撰寫其實對於手部也是很大的負擔,如果你平日工作又是高強度使用鍵盤更是如此。 這邊我會分享我自己如何使用 AI 來幫助我更輕鬆跟高效的產出,除了輕鬆外,也讓效率大幅的提升。
Thumbnail
隨著人工智能技術的不斷發展,語音辨識AI作為其中的重要應用之一,正逐漸改變著我們的生活和工作方式。本文將介紹語音辨識AI的原理、應用以及其在不同領域的潛在價值。 嵐海智能|語意分析|智能客服|生成式AI
Thumbnail
要為展覽製作不同語言的解說錄音,但找不到合適的配音人?現今的博物館已經不再只是單一的展示文物,而是透過多媒體的方式來呈現文物背後的故事、歷史和文化背景。 其中一個重要的元素是語音導覽,能夠讓前來參觀的民眾更深入地了解展品和展覽的內容。
近年來,人工智能(AI)在語言理解和情感分析方面取得了重要進展。通過機器學習和自然語言處理(NLP)技術......
Thumbnail
本文介紹了一種全程免費的方法來快速將長時間的音檔轉為逐字稿,不需要花費任何費用。作者建議使用OpenAI的Playground,其中有一個語音轉文字的功能,並支援多種語言。相較於其他需要付費的AI語音轉文字程式,OpenAI的Playground效果非常好,是會議記錄人員的福音。現在,你不需要再花費
Thumbnail
被吸屁屁鬼傻瓜生成機器吸了兩次後,傻瓜加傻瓜就變成了超級菁英!2021年的蠟筆小新電影,狠狠的嘲諷了菁英階級制度,和AI導入教育管理方式。 看到最近AI火紅,再回頭看這部電影格外有感,導入菁英教學和AI管理的學院,校長要AI想辦法讓菁英培育快一點,AI服從指令,但不思考教育要如何改變,只思考要怎麼完