AI語音TTS可以取代有聲書嗎?

更新於 發佈於 閱讀時間約 4 分鐘

(本文寫於2023年2月6日,回覆董福興的臉書動態

關於「有聲書可以透過TTS朗讀」這點,我認為這當中還是有很多細節待商榷。

首先,對於拼音文字來說「我說即我寫」,但華「文」的方塊字卻不是如此,不僅同音字過多以致難以辨別(最簡單的例子是「他她牠它」,但不只如此),複雜歷史因素之下遺留在現代華「文」當中的文言文法(我寫非我說)也會造成聽覺理解障礙(註1),種種因素都讓華文Text To華語Speech在短中期之內不可能完全取代華語有聲書。長期來說,不知道AI能不能代為優化TTS文本,但以現在的技術來說,這並不「簡單」。

其次,想要以TTS取代有聲書,不同文類也會面對不同的難點。以小說而言,作者可能出於各種原因,將對白放在或不放在引號內,來達成不同的文意,但引號卻難以被TTS(註2),甚至華「文」書寫中的所有標點符號都是如此。而若以專業書籍而言,當作者引進一個新詞彙,某些可以望「文」生義的詞彙,聽覺上卻並不是如此。這些問題都可以透過某些編輯或表演手法使得有聲書成立,但direct TTS卻不成立。

第三,就實際情況而言,就算今天臺灣的電子書全都開通了TTS功能,且需要TTS的聽者/讀者都願意使用這個功能,臺灣作者的文字能力與文字書編輯的編輯觀,也不見得能使TTS直接取代有聲書。光是你我這兩篇文章,在未經適當編輯之下,都不可能直接TTS而讓人聽懂。

我同意TTS可以補足有聲書產能不足所造成的可近障礙(因此我個人贊成已取得TTS授權的出版品都應該開通TTS,而出版商也應該更積極爭取TTS授權),但我認為TTS只是「輔具」,並不是一個獨立的出版品(否則我們難以解釋,為何就算英語世界的電子書普遍都開通了TTS,出版商仍然要花錢錄製有聲書)。我相信具有AI成分的TTS技術可以大幅提升有聲書的產製效能,但「有聲書可以透過TTS朗讀」這個說法如果仔細探究,至少在臺灣的脈絡下,實在無法講得那麼絕對(註3)。

--

註1:比方說,你寫的「但都應該要花力氣做,做好」,你的意思其實是「但都應該要花力氣做,並且把事情做好」,然而如果未經人工校正就直接TTS,一般人的聽覺應該會直接在「做好」那裡當機。

註2:目前在西方媒體上的TTS功能,AI會將"唸成quote、unquote。媒體報導的篇幅短小(再長也不過數千字),且以報導性質居多,我們多聽幾次quote, quote, quote,心情上仍可接受。但短篇小說至少也是萬字起跳,若是把quote全部唸出來,將十分影響聆聽體驗。

註3:其實日語有聲書也有同音異字的困擾。我個人就聽過湊佳苗《往復書簡》有聲書當中的一篇故事,利用同音異字造成故事中的一個重大情節發展(暫且不去論斷這個寫作手法是否成功)。其實編輯可以透過補述,讓同音異字的兩者有所區別;但因為「把文字直接讀成有聲書」的這種編輯觀念仍然相當普遍,使得這部有聲書在聽覺上反而抓不到那個趣味了。

留言
avatar-img
留言分享你的想法!
avatar-img
余孟珂的沙龍
3會員
13內容數
余孟珂的沙龍的其他內容
2023/06/13
全書23個章節的開場與結尾插曲,雖然曲風各異,但全都是由《四季紅》、《月夜愁》、《望春風》、《雨夜花》四首歌曲的旋律片段發展而成。許多章節裡,樂曲的歌詞甚至暗示了那一章節的主角的心境。例如,在聶華苓無法跟安格爾遠走美國的這一篇裡,你會聽到木管與銅管彷彿彼此應和:「月色照在三線路,等待的人那袂來⋯⋯」
Thumbnail
2023/06/13
全書23個章節的開場與結尾插曲,雖然曲風各異,但全都是由《四季紅》、《月夜愁》、《望春風》、《雨夜花》四首歌曲的旋律片段發展而成。許多章節裡,樂曲的歌詞甚至暗示了那一章節的主角的心境。例如,在聶華苓無法跟安格爾遠走美國的這一篇裡,你會聽到木管與銅管彷彿彼此應和:「月色照在三線路,等待的人那袂來⋯⋯」
Thumbnail
2023/06/04
一個人的信用分數低,不是只有影響到他自己而已。信用分數低,利息就高;而當借貸者還不出錢,跟借貸者共享同一個標籤的整個群體,信用分數都會被評得更低。而有能力還錢的群體,分數則會越高。差距拉開差距,階級就這樣一直複製下去了。因此信用分數不只是在評定一個人的財務表現,而是整個社會的歧視的具象化。
Thumbnail
2023/06/04
一個人的信用分數低,不是只有影響到他自己而已。信用分數低,利息就高;而當借貸者還不出錢,跟借貸者共享同一個標籤的整個群體,信用分數都會被評得更低。而有能力還錢的群體,分數則會越高。差距拉開差距,階級就這樣一直複製下去了。因此信用分數不只是在評定一個人的財務表現,而是整個社會的歧視的具象化。
Thumbnail
2023/06/03
音樂本身也非常具有挑戰性。從系譜來說,這齣戲真的是歌劇,而非音樂劇。難得聽到有國內作曲家敢運用調式、非調音樂給戲劇歌手演唱,我給予作曲家最高的敬意。 然而,這齣戲也重新讓我懷疑「台語歌詞是否適合以美聲唱法(bel canto)來演唱」這個老問題。
Thumbnail
2023/06/03
音樂本身也非常具有挑戰性。從系譜來說,這齣戲真的是歌劇,而非音樂劇。難得聽到有國內作曲家敢運用調式、非調音樂給戲劇歌手演唱,我給予作曲家最高的敬意。 然而,這齣戲也重新讓我懷疑「台語歌詞是否適合以美聲唱法(bel canto)來演唱」這個老問題。
Thumbnail
看更多
你可能也想看
Thumbnail
TOMICA第一波推出吉伊卡哇聯名小車車的時候馬上就被搶購一空,一直很扼腕當時沒有趕緊入手。前陣子閒來無事逛蝦皮,突然發現幾家商場都又開始重新上架,價格也都回到正常水準,估計是官方又再補了一批貨,想都沒想就立刻下單! 同文也跟大家分享近期蝦皮購物紀錄、好用推薦、蝦皮分潤計畫的聯盟行銷!
Thumbnail
TOMICA第一波推出吉伊卡哇聯名小車車的時候馬上就被搶購一空,一直很扼腕當時沒有趕緊入手。前陣子閒來無事逛蝦皮,突然發現幾家商場都又開始重新上架,價格也都回到正常水準,估計是官方又再補了一批貨,想都沒想就立刻下單! 同文也跟大家分享近期蝦皮購物紀錄、好用推薦、蝦皮分潤計畫的聯盟行銷!
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
現在的有聲書製程,簡直堪比徒手抄書,技術基本上跟三十年前一樣,遲遲無法進入有聲書的活字印刷術時代。我自己是非常期待含有AI成份的TTS技術輔助有聲書的製作。然而,TTS功能與有聲書還是有著本質上的差異。
Thumbnail
現在的有聲書製程,簡直堪比徒手抄書,技術基本上跟三十年前一樣,遲遲無法進入有聲書的活字印刷術時代。我自己是非常期待含有AI成份的TTS技術輔助有聲書的製作。然而,TTS功能與有聲書還是有著本質上的差異。
Thumbnail
對於拼音文字來說「我說即我寫」,但華「文」的方塊字卻不是如此,不僅同音字過多以致難以辨別(最簡單的例子是「他她牠它」),複雜歷史因素之下遺留在現代華「文」當中的文言文法(我寫非我說)也會造成聽覺理解障礙,種種因素都讓華文Text To華語Speech在短中期之內不可能完全取代華語有聲書。
Thumbnail
對於拼音文字來說「我說即我寫」,但華「文」的方塊字卻不是如此,不僅同音字過多以致難以辨別(最簡單的例子是「他她牠它」),複雜歷史因素之下遺留在現代華「文」當中的文言文法(我寫非我說)也會造成聽覺理解障礙,種種因素都讓華文Text To華語Speech在短中期之內不可能完全取代華語有聲書。
Thumbnail
這種題材在口語上的演繹風格並不需要太過繁複、花俏;沉穩但偶有起伏的說話方式就已經非常適合。我認為在口語表現上,這已經是一部成熟的作品;然而在編排上,這部作品還有很大的精步空間。閱聽者也需要自己用大腦過濾掉中國共產黨的政治宣傳。
Thumbnail
這種題材在口語上的演繹風格並不需要太過繁複、花俏;沉穩但偶有起伏的說話方式就已經非常適合。我認為在口語表現上,這已經是一部成熟的作品;然而在編排上,這部作品還有很大的精步空間。閱聽者也需要自己用大腦過濾掉中國共產黨的政治宣傳。
Thumbnail
現今社會中,人們的時間與注意力被各種平台與媒體瓜分,所以越來越少人有時間閱讀書籍。即使時間變得更加有限,人們對知識的吸收依然保持著高度的興趣,經常透過 Youtube、Netflix、podcast、TikTok、Facebook、Instagram等各種多媒體平台進行學習。
Thumbnail
現今社會中,人們的時間與注意力被各種平台與媒體瓜分,所以越來越少人有時間閱讀書籍。即使時間變得更加有限,人們對知識的吸收依然保持著高度的興趣,經常透過 Youtube、Netflix、podcast、TikTok、Facebook、Instagram等各種多媒體平台進行學習。
Thumbnail
抄寫對我們有幫助嗎?AI世代的學生們,還要不要練寫字?
Thumbnail
抄寫對我們有幫助嗎?AI世代的學生們,還要不要練寫字?
Thumbnail
近來隨AI技術演進,網際智慧重新開發,推出「文字MP3專業版」,將應用層面擴大至有聲書、影片配音等,獲得2022年金塾獎新興技術組秀才。「文字MP3專業版」提供高品質真人發音引擎,可將大量文字内容轉換為朗讀聲音檔,並可在同一篇文字內容中切換不同朗讀聲音,並輸出為MP3或WAV聲音檔案。
Thumbnail
近來隨AI技術演進,網際智慧重新開發,推出「文字MP3專業版」,將應用層面擴大至有聲書、影片配音等,獲得2022年金塾獎新興技術組秀才。「文字MP3專業版」提供高品質真人發音引擎,可將大量文字内容轉換為朗讀聲音檔,並可在同一篇文字內容中切換不同朗讀聲音,並輸出為MP3或WAV聲音檔案。
Thumbnail
說到AI朗讀,大家想到的是什麼?是google小姐的聲音?很機械音的冰冷感?如果是這樣那你一定沒有聽過好的AI朗讀! 因為最近一直在關注有聲書,AI朗讀有聲書已經發展多年,在演播人員哪裡找飯吃?一文中我故意漏掉了一點沒說,就是聲音授權研究和使用。大型的音頻平台在累積了大量的聲音庫之後,也同時做聲音的
Thumbnail
說到AI朗讀,大家想到的是什麼?是google小姐的聲音?很機械音的冰冷感?如果是這樣那你一定沒有聽過好的AI朗讀! 因為最近一直在關注有聲書,AI朗讀有聲書已經發展多年,在演播人員哪裡找飯吃?一文中我故意漏掉了一點沒說,就是聲音授權研究和使用。大型的音頻平台在累積了大量的聲音庫之後,也同時做聲音的
Thumbnail
▶ 隨選朗讀(工具列功能介紹) ▶ 如何自訂特定文字的發音? 網際智慧TTS語音引擎及相關應用,經驗超過23年,支持過軟硬體商及企業超過1000家,有豐富的經驗與能力協助解決語音應用及導入的問題,最佳台灣口音文字轉語音軟體!
Thumbnail
▶ 隨選朗讀(工具列功能介紹) ▶ 如何自訂特定文字的發音? 網際智慧TTS語音引擎及相關應用,經驗超過23年,支持過軟硬體商及企業超過1000家,有豐富的經驗與能力協助解決語音應用及導入的問題,最佳台灣口音文字轉語音軟體!
Thumbnail
文字MP3 V3.5 版採用人工智慧自然語意分析與語音合成專利技術,可以依據前後文語意,正確的朗讀出中文(包括破音字)、英文與阿拉伯數字(包括日期、百分比),並且轉存成 MP3 或 WAV 檔案。 文字MP3 V3.5 版,針對不同的使用需要,提供「整篇朗讀」與「隨選朗讀」兩種朗讀介面。
Thumbnail
文字MP3 V3.5 版採用人工智慧自然語意分析與語音合成專利技術,可以依據前後文語意,正確的朗讀出中文(包括破音字)、英文與阿拉伯數字(包括日期、百分比),並且轉存成 MP3 或 WAV 檔案。 文字MP3 V3.5 版,針對不同的使用需要,提供「整篇朗讀」與「隨選朗讀」兩種朗讀介面。
Thumbnail
就像我曾經看完好幾本小說寫作技巧的工具書,最後,只是下定決心把那些觀念全部丟掉,要是真的照表操課,所謂正統科班中文系畢業、從小是國文作文的資優生、有過長期經營部落格經驗的人如我,大概連半個字也生不出來。
Thumbnail
就像我曾經看完好幾本小說寫作技巧的工具書,最後,只是下定決心把那些觀念全部丟掉,要是真的照表操課,所謂正統科班中文系畢業、從小是國文作文的資優生、有過長期經營部落格經驗的人如我,大概連半個字也生不出來。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News