AI語音能加速有聲書製作,但AI語音TTS仍無法取代有聲書

更新於 發佈於 閱讀時間約 1 分鐘
(本文寫於2023年4月23日,回覆董福興的臉書動態
我完全支持「要是哪一天AI語音真的能和真人一樣,你是不是應該導入來取代真人,而可以更快、更便宜地生產有聲書呢?」這個論點。
現在的有聲書製程,簡直堪比徒手抄書,技術基本上跟三十年前一樣,只差在電腦的容量與記憶體有所提升,但本質上並沒有什麼變化,遲遲無法進入有聲書的活字印刷術時代。我自己是非常期待含有AI成份的TTS技術輔助有聲書的製作。
然而,TTS功能與有聲書還是有著本質上的差異。以華語與華文的對應來說,口語體與書寫體的差距就是那麼大。文字上的編排並不總是有辦法直接TTS就讓人聽懂。舉個最簡單的例子:光是同音字「他她」就足以困擾一堆人了,更不要講相同文字搭配不同標點符號所造成的文意差距。這還只是冰山一隅。
TTS就只是把文字讀出聲音的輔具,並不代表TTS後的聲音就直接形成一個新產品。有聲書還是需要經過編輯,才能成為適合閱聽的產品,而含有AI成份的TTS技術會是節省有聲書產製工作量的一個絕佳幫手。
以中國百度執行長李彥宏的《智能交通》為例(他今年跌出政協委員名單了,幫QQ),這種講述趨勢、科技類的文字書,用AI技術轉為有聲書,在內容上已經堪可閱聽。
但這代表《智能交通》有聲書是一部聽者友善的作品嗎?我認為完全不是。書中句間、段間的間隔時長時短,使我的注意力時常跟丟;每一節前後的無謂工商時間,使我聽下來心浮氣躁;專有名詞未有適當註釋,使我只能根據前後文去猜測原始文字,再去蒐尋意思;有些段落的技術細節過多,其實應該刪節,根本不該讀成聲音。這些都是「編輯上」沒有做好的細節。
含有AI成份的TTS會是製作有聲書的好幫手;但有聲書的編輯工作,才是有聲書無法被電子書TTS取代的根本要素。電子書TTS帶給閱聽者的體驗,就只是TTS,就不是有聲書。
avatar-img
3會員
13內容數
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
余孟珂的沙龍 的其他內容
考慮到本片的敘事脈絡,我們可以合理推論這每一種唸法都帶有各自的政治立場與社會關係。這是「口語」做得到,而「文字」做不到的事。在電影字幕上,我們一律只看得到「文清」二字。
一般而言,在影視作品當中使用《安魂曲》,目的就是在暗示死亡的悲悽、陰沉與恐怖。但《黑暗榮耀》製作團隊選用了佛瑞的《安魂曲》,反而營造出一種終將獲得救贖的氛圍,可謂別出心裁。
對於拼音文字來說「我說即我寫」,但華「文」的方塊字卻不是如此,不僅同音字過多以致難以辨別(最簡單的例子是「他她牠它」),複雜歷史因素之下遺留在現代華「文」當中的文言文法(我寫非我說)也會造成聽覺理解障礙,種種因素都讓華文Text To華語Speech在短中期之內不可能完全取代華語有聲書。
我聽了這段demo,簡直聲歷其境,嚇死!😱 想說美國是這麼恐怖的地方嗎???(是。其實臺灣也是。)接著又看到Audible的介紹頁面,引用了聽者回饋,說這部有聲書"dramatically raises the bar on audiobooks",看來所言不假。於是就決定下單了。
我雖然不是天才少年,但要說我完全不能體會天才少年的心境,卻倒也並不精確。我小學唸了五年的智優資源班(大概唸到五年級就撐不太下去了,是硬撐唸完的),國中三年讀得稍微比較接地氣一點(雖然也還是當地的升學名校),高中則是進了一所法西斯主義氣息濃厚的第二志願。
作為產品觀察,這次聽的是Audible的Plus裡面的一門課程《The Art of Storytelling: From Parents to Professionals》。
考慮到本片的敘事脈絡,我們可以合理推論這每一種唸法都帶有各自的政治立場與社會關係。這是「口語」做得到,而「文字」做不到的事。在電影字幕上,我們一律只看得到「文清」二字。
一般而言,在影視作品當中使用《安魂曲》,目的就是在暗示死亡的悲悽、陰沉與恐怖。但《黑暗榮耀》製作團隊選用了佛瑞的《安魂曲》,反而營造出一種終將獲得救贖的氛圍,可謂別出心裁。
對於拼音文字來說「我說即我寫」,但華「文」的方塊字卻不是如此,不僅同音字過多以致難以辨別(最簡單的例子是「他她牠它」),複雜歷史因素之下遺留在現代華「文」當中的文言文法(我寫非我說)也會造成聽覺理解障礙,種種因素都讓華文Text To華語Speech在短中期之內不可能完全取代華語有聲書。
我聽了這段demo,簡直聲歷其境,嚇死!😱 想說美國是這麼恐怖的地方嗎???(是。其實臺灣也是。)接著又看到Audible的介紹頁面,引用了聽者回饋,說這部有聲書"dramatically raises the bar on audiobooks",看來所言不假。於是就決定下單了。
我雖然不是天才少年,但要說我完全不能體會天才少年的心境,卻倒也並不精確。我小學唸了五年的智優資源班(大概唸到五年級就撐不太下去了,是硬撐唸完的),國中三年讀得稍微比較接地氣一點(雖然也還是當地的升學名校),高中則是進了一所法西斯主義氣息濃厚的第二志願。
作為產品觀察,這次聽的是Audible的Plus裡面的一門課程《The Art of Storytelling: From Parents to Professionals》。
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
我們前面幾篇已經講完TTS技術的一大半架構了,知道了如何將聲學特徵重建回音訊波形,也從中可以知道要是聲學特徵不完善,最終取得的結果也會不自然,剩下要探討該如何將文字轉換成聲學特徵,且能夠自然地表現停頓及細節變化,讓我們開始吧。
Thumbnail
  我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理、預測音訊特徵、語音重建,其中輸入前處理的部分上兩篇已經處理完,在進入預測音訊特徵前,讓我們先來理解最後的語音重建部分。
Thumbnail
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
Thumbnail
書 少年時,我是這麼想得: 閱讀能使得我有書寫的能力。 學習如何闡述得更好,啟發下一個題目的靈感。 然而,書寫太困難了。 所以開始拿著筆記本抄錄喜歡的文句。 抄寫是非常重要的,能一字一句地去汲取著文字, 像是用另外一個方式解讀,挖掘一個又一個沒留意的含義。 但現在看來變成了一種很笨拙地
Thumbnail
據我所知,許多配音員老師是很反對去錄AI語音採樣的,但我則是抱持著不同的想法。昨天在九號群裡,和在線的伙伴們聊了一下我的想法,列出了很多應用場景,供大家自我判斷是否適合去錄AI語音採樣。 本篇內容是為剛從聲音培訓班結業、自我訓練一段時間、對聲音表演有興趣,但是不想成為配音員....等非職業配音員的
Thumbnail
文字MP3專業版是簡單且強大的工具,會編輯文字就能創造出專業級配音。簡單 ﹑容易上手,像使用Word,無需剪輯經驗,輕鬆完成調整語速﹑插入空秒﹑插入背景音樂或音效等方面的製作。提供多種語言和配音員選擇,包括純正的臺灣口音。這個工具能應用於各種情境,如教育訓練簡報、有聲書、Podcast等。
前言 113.2.28曾任科技部代理部長的林一平在聯合報發表了一篇《AI時代的作家》討論AI對作家的影響,原因是有外文系教授問他:未來文學院學生的工作是否會被AI所取代?他的看法是翻譯工作可以確定會被取代。(註:到清邁旅遊時,手機壞了,不通泰語,可是到尚泰百貨的手機商場時,修理手機的小弟直接用
Thumbnail
有人堅信語譯的精髓『信、達、雅』,絕對是人工智能無法取代的;有人堅信人工智能勢必完全取代人工筆譯與語譯。 我則以為盡信AI,不如沒有AI。
Thumbnail
隨著生成式 AI (Generative AI ) 2023年大紅大紫,許多人也正熱烈討論 AI 到底會不會讓人失業,這是個很有趣的話題,因為科技變革千百年來從未停止過,現在發生的事絕對不是新鮮事,我們就來從留聲機被發明到被反對,甚至被視為危害文明的歷史反思當前的科技趨勢。 本文可以讓你學到什
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
我們前面幾篇已經講完TTS技術的一大半架構了,知道了如何將聲學特徵重建回音訊波形,也從中可以知道要是聲學特徵不完善,最終取得的結果也會不自然,剩下要探討該如何將文字轉換成聲學特徵,且能夠自然地表現停頓及細節變化,讓我們開始吧。
Thumbnail
  我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理、預測音訊特徵、語音重建,其中輸入前處理的部分上兩篇已經處理完,在進入預測音訊特徵前,讓我們先來理解最後的語音重建部分。
Thumbnail
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
Thumbnail
書 少年時,我是這麼想得: 閱讀能使得我有書寫的能力。 學習如何闡述得更好,啟發下一個題目的靈感。 然而,書寫太困難了。 所以開始拿著筆記本抄錄喜歡的文句。 抄寫是非常重要的,能一字一句地去汲取著文字, 像是用另外一個方式解讀,挖掘一個又一個沒留意的含義。 但現在看來變成了一種很笨拙地
Thumbnail
據我所知,許多配音員老師是很反對去錄AI語音採樣的,但我則是抱持著不同的想法。昨天在九號群裡,和在線的伙伴們聊了一下我的想法,列出了很多應用場景,供大家自我判斷是否適合去錄AI語音採樣。 本篇內容是為剛從聲音培訓班結業、自我訓練一段時間、對聲音表演有興趣,但是不想成為配音員....等非職業配音員的
Thumbnail
文字MP3專業版是簡單且強大的工具,會編輯文字就能創造出專業級配音。簡單 ﹑容易上手,像使用Word,無需剪輯經驗,輕鬆完成調整語速﹑插入空秒﹑插入背景音樂或音效等方面的製作。提供多種語言和配音員選擇,包括純正的臺灣口音。這個工具能應用於各種情境,如教育訓練簡報、有聲書、Podcast等。
前言 113.2.28曾任科技部代理部長的林一平在聯合報發表了一篇《AI時代的作家》討論AI對作家的影響,原因是有外文系教授問他:未來文學院學生的工作是否會被AI所取代?他的看法是翻譯工作可以確定會被取代。(註:到清邁旅遊時,手機壞了,不通泰語,可是到尚泰百貨的手機商場時,修理手機的小弟直接用
Thumbnail
有人堅信語譯的精髓『信、達、雅』,絕對是人工智能無法取代的;有人堅信人工智能勢必完全取代人工筆譯與語譯。 我則以為盡信AI,不如沒有AI。
Thumbnail
隨著生成式 AI (Generative AI ) 2023年大紅大紫,許多人也正熱烈討論 AI 到底會不會讓人失業,這是個很有趣的話題,因為科技變革千百年來從未停止過,現在發生的事絕對不是新鮮事,我們就來從留聲機被發明到被反對,甚至被視為危害文明的歷史反思當前的科技趨勢。 本文可以讓你學到什