AI語音能加速有聲書製作,但AI語音TTS仍無法取代有聲書

更新於 發佈於 閱讀時間約 2 分鐘

(本文寫於2023年4月23日,回覆董福興的臉書動態

我完全支持「要是哪一天AI語音真的能和真人一樣,你是不是應該導入來取代真人,而可以更快、更便宜地生產有聲書呢?」這個論點。

現在的有聲書製程,簡直堪比徒手抄書,技術基本上跟三十年前一樣,只差在電腦的容量與記憶體有所提升,但本質上並沒有什麼變化,遲遲無法進入有聲書的活字印刷術時代。我自己是非常期待含有AI成份的TTS技術輔助有聲書的製作。

然而,TTS功能與有聲書還是有著本質上的差異。以華語與華文的對應來說,口語體與書寫體的差距就是那麼大。文字上的編排並不總是有辦法直接TTS就讓人聽懂。舉個最簡單的例子:光是同音字「他她」就足以困擾一堆人了,更不要講相同文字搭配不同標點符號所造成的文意差距。這還只是冰山一隅。

TTS就只是把文字讀出聲音的輔具,並不代表TTS後的聲音就直接形成一個新產品。有聲書還是需要經過編輯,才能成為適合閱聽的產品,而含有AI成份的TTS技術會是節省有聲書產製工作量的一個絕佳幫手。

以中國百度執行長李彥宏的《智能交通》為例(他今年跌出政協委員名單了,幫QQ),這種講述趨勢、科技類的文字書,用AI技術轉為有聲書,在內容上已經堪可閱聽。

但這代表《智能交通》有聲書是一部聽者友善的作品嗎?我認為完全不是。書中句間、段間的間隔時長時短,使我的注意力時常跟丟;每一節前後的無謂工商時間,使我聽下來心浮氣躁;專有名詞未有適當註釋,使我只能根據前後文去猜測原始文字,再去蒐尋意思;有些段落的技術細節過多,其實應該刪節,根本不該讀成聲音。這些都是「編輯上」沒有做好的細節。

含有AI成份的TTS會是製作有聲書的好幫手;但有聲書的編輯工作,才是有聲書無法被電子書TTS取代的根本要素。電子書TTS帶給閱聽者的體驗,就只是TTS,就不是有聲書。

留言
avatar-img
留言分享你的想法!
龍阿迪-avatar-img
2023/06/03
這只是時間上的問題而已,調校AI是一件不算簡單的事,就像帶徒弟一樣,然而不要覺得什麼事AI做不好,大概只有“變人”這件事他做不好,因為人類不會承認他是人。除此之外只要人類做得到的事,AI做得到只是時間上的問題。
avatar-img
余孟珂的沙龍
3會員
13內容數
余孟珂的沙龍的其他內容
2023/06/13
全書23個章節的開場與結尾插曲,雖然曲風各異,但全都是由《四季紅》、《月夜愁》、《望春風》、《雨夜花》四首歌曲的旋律片段發展而成。許多章節裡,樂曲的歌詞甚至暗示了那一章節的主角的心境。例如,在聶華苓無法跟安格爾遠走美國的這一篇裡,你會聽到木管與銅管彷彿彼此應和:「月色照在三線路,等待的人那袂來⋯⋯」
Thumbnail
2023/06/13
全書23個章節的開場與結尾插曲,雖然曲風各異,但全都是由《四季紅》、《月夜愁》、《望春風》、《雨夜花》四首歌曲的旋律片段發展而成。許多章節裡,樂曲的歌詞甚至暗示了那一章節的主角的心境。例如,在聶華苓無法跟安格爾遠走美國的這一篇裡,你會聽到木管與銅管彷彿彼此應和:「月色照在三線路,等待的人那袂來⋯⋯」
Thumbnail
2023/06/04
一個人的信用分數低,不是只有影響到他自己而已。信用分數低,利息就高;而當借貸者還不出錢,跟借貸者共享同一個標籤的整個群體,信用分數都會被評得更低。而有能力還錢的群體,分數則會越高。差距拉開差距,階級就這樣一直複製下去了。因此信用分數不只是在評定一個人的財務表現,而是整個社會的歧視的具象化。
Thumbnail
2023/06/04
一個人的信用分數低,不是只有影響到他自己而已。信用分數低,利息就高;而當借貸者還不出錢,跟借貸者共享同一個標籤的整個群體,信用分數都會被評得更低。而有能力還錢的群體,分數則會越高。差距拉開差距,階級就這樣一直複製下去了。因此信用分數不只是在評定一個人的財務表現,而是整個社會的歧視的具象化。
Thumbnail
2023/06/03
音樂本身也非常具有挑戰性。從系譜來說,這齣戲真的是歌劇,而非音樂劇。難得聽到有國內作曲家敢運用調式、非調音樂給戲劇歌手演唱,我給予作曲家最高的敬意。 然而,這齣戲也重新讓我懷疑「台語歌詞是否適合以美聲唱法(bel canto)來演唱」這個老問題。
Thumbnail
2023/06/03
音樂本身也非常具有挑戰性。從系譜來說,這齣戲真的是歌劇,而非音樂劇。難得聽到有國內作曲家敢運用調式、非調音樂給戲劇歌手演唱,我給予作曲家最高的敬意。 然而,這齣戲也重新讓我懷疑「台語歌詞是否適合以美聲唱法(bel canto)來演唱」這個老問題。
Thumbnail
看更多
你可能也想看
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
介紹朋友新開的蝦皮選物店『10樓2選物店』,並分享方格子與蝦皮合作的分潤計畫,註冊流程簡單,0成本、無綁約,推薦給想增加收入的讀者。
Thumbnail
介紹朋友新開的蝦皮選物店『10樓2選物店』,並分享方格子與蝦皮合作的分潤計畫,註冊流程簡單,0成本、無綁約,推薦給想增加收入的讀者。
Thumbnail
現在的有聲書製程,簡直堪比徒手抄書,技術基本上跟三十年前一樣,遲遲無法進入有聲書的活字印刷術時代。我自己是非常期待含有AI成份的TTS技術輔助有聲書的製作。然而,TTS功能與有聲書還是有著本質上的差異。
Thumbnail
現在的有聲書製程,簡直堪比徒手抄書,技術基本上跟三十年前一樣,遲遲無法進入有聲書的活字印刷術時代。我自己是非常期待含有AI成份的TTS技術輔助有聲書的製作。然而,TTS功能與有聲書還是有著本質上的差異。
Thumbnail
對於拼音文字來說「我說即我寫」,但華「文」的方塊字卻不是如此,不僅同音字過多以致難以辨別(最簡單的例子是「他她牠它」),複雜歷史因素之下遺留在現代華「文」當中的文言文法(我寫非我說)也會造成聽覺理解障礙,種種因素都讓華文Text To華語Speech在短中期之內不可能完全取代華語有聲書。
Thumbnail
對於拼音文字來說「我說即我寫」,但華「文」的方塊字卻不是如此,不僅同音字過多以致難以辨別(最簡單的例子是「他她牠它」),複雜歷史因素之下遺留在現代華「文」當中的文言文法(我寫非我說)也會造成聽覺理解障礙,種種因素都讓華文Text To華語Speech在短中期之內不可能完全取代華語有聲書。
Thumbnail
這種題材在口語上的演繹風格並不需要太過繁複、花俏;沉穩但偶有起伏的說話方式就已經非常適合。我認為在口語表現上,這已經是一部成熟的作品;然而在編排上,這部作品還有很大的精步空間。閱聽者也需要自己用大腦過濾掉中國共產黨的政治宣傳。
Thumbnail
這種題材在口語上的演繹風格並不需要太過繁複、花俏;沉穩但偶有起伏的說話方式就已經非常適合。我認為在口語表現上,這已經是一部成熟的作品;然而在編排上,這部作品還有很大的精步空間。閱聽者也需要自己用大腦過濾掉中國共產黨的政治宣傳。
Thumbnail
後疫情時代加上科技發展日新月異,孩子們的學習方式也隨之改變,越來越多家長喜歡使用多媒體平台讓孩子們進行學習。這對於出版社來說是一個難得的機會,可以提供更多元化的內容來滿足家長及孩子們的需求,但是製作高品質的英語有聲內容需要大量的人力、時間和資源,成本十分高昂。
Thumbnail
後疫情時代加上科技發展日新月異,孩子們的學習方式也隨之改變,越來越多家長喜歡使用多媒體平台讓孩子們進行學習。這對於出版社來說是一個難得的機會,可以提供更多元化的內容來滿足家長及孩子們的需求,但是製作高品質的英語有聲內容需要大量的人力、時間和資源,成本十分高昂。
Thumbnail
現今社會中,人們的時間與注意力被各種平台與媒體瓜分,所以越來越少人有時間閱讀書籍。即使時間變得更加有限,人們對知識的吸收依然保持著高度的興趣,經常透過 Youtube、Netflix、podcast、TikTok、Facebook、Instagram等各種多媒體平台進行學習。
Thumbnail
現今社會中,人們的時間與注意力被各種平台與媒體瓜分,所以越來越少人有時間閱讀書籍。即使時間變得更加有限,人們對知識的吸收依然保持著高度的興趣,經常透過 Youtube、Netflix、podcast、TikTok、Facebook、Instagram等各種多媒體平台進行學習。
Thumbnail
抄寫對我們有幫助嗎?AI世代的學生們,還要不要練寫字?
Thumbnail
抄寫對我們有幫助嗎?AI世代的學生們,還要不要練寫字?
Thumbnail
近來隨AI技術演進,網際智慧重新開發,推出「文字MP3專業版」,將應用層面擴大至有聲書、影片配音等,獲得2022年金塾獎新興技術組秀才。「文字MP3專業版」提供高品質真人發音引擎,可將大量文字内容轉換為朗讀聲音檔,並可在同一篇文字內容中切換不同朗讀聲音,並輸出為MP3或WAV聲音檔案。
Thumbnail
近來隨AI技術演進,網際智慧重新開發,推出「文字MP3專業版」,將應用層面擴大至有聲書、影片配音等,獲得2022年金塾獎新興技術組秀才。「文字MP3專業版」提供高品質真人發音引擎,可將大量文字内容轉換為朗讀聲音檔,並可在同一篇文字內容中切換不同朗讀聲音,並輸出為MP3或WAV聲音檔案。
Thumbnail
說到AI朗讀,大家想到的是什麼?是google小姐的聲音?很機械音的冰冷感?如果是這樣那你一定沒有聽過好的AI朗讀! 因為最近一直在關注有聲書,AI朗讀有聲書已經發展多年,在演播人員哪裡找飯吃?一文中我故意漏掉了一點沒說,就是聲音授權研究和使用。大型的音頻平台在累積了大量的聲音庫之後,也同時做聲音的
Thumbnail
說到AI朗讀,大家想到的是什麼?是google小姐的聲音?很機械音的冰冷感?如果是這樣那你一定沒有聽過好的AI朗讀! 因為最近一直在關注有聲書,AI朗讀有聲書已經發展多年,在演播人員哪裡找飯吃?一文中我故意漏掉了一點沒說,就是聲音授權研究和使用。大型的音頻平台在累積了大量的聲音庫之後,也同時做聲音的
Thumbnail
聲音相關應用在過去兩年相關熱門,從 Clubhouse 的突然爆紅,Spotify 與國內如 KKBOX、SoundON、Firstory 不斷推動 Podcast 的收聽人數,以及有更多電子書都提供內建的語音朗讀功能,愈來愈多線上客服使用仿真人聲音的服務。 特教考卷報讀、數位聲音 教材製作
Thumbnail
聲音相關應用在過去兩年相關熱門,從 Clubhouse 的突然爆紅,Spotify 與國內如 KKBOX、SoundON、Firstory 不斷推動 Podcast 的收聽人數,以及有更多電子書都提供內建的語音朗讀功能,愈來愈多線上客服使用仿真人聲音的服務。 特教考卷報讀、數位聲音 教材製作
Thumbnail
文字MP3 V3.5 版採用人工智慧自然語意分析與語音合成專利技術,可以依據前後文語意,正確的朗讀出中文(包括破音字)、英文與阿拉伯數字(包括日期、百分比),並且轉存成 MP3 或 WAV 檔案。 文字MP3 V3.5 版,針對不同的使用需要,提供「整篇朗讀」與「隨選朗讀」兩種朗讀介面。
Thumbnail
文字MP3 V3.5 版採用人工智慧自然語意分析與語音合成專利技術,可以依據前後文語意,正確的朗讀出中文(包括破音字)、英文與阿拉伯數字(包括日期、百分比),並且轉存成 MP3 或 WAV 檔案。 文字MP3 V3.5 版,針對不同的使用需要,提供「整篇朗讀」與「隨選朗讀」兩種朗讀介面。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News