AI語音能加速有聲書製作,但AI語音TTS仍無法取代有聲書

閱讀時間約 1 分鐘
(本文寫於2023年4月23日,回覆董福興的臉書動態
我完全支持「要是哪一天AI語音真的能和真人一樣,你是不是應該導入來取代真人,而可以更快、更便宜地生產有聲書呢?」這個論點。
現在的有聲書製程,簡直堪比徒手抄書,技術基本上跟三十年前一樣,只差在電腦的容量與記憶體有所提升,但本質上並沒有什麼變化,遲遲無法進入有聲書的活字印刷術時代。我自己是非常期待含有AI成份的TTS技術輔助有聲書的製作。
然而,TTS功能與有聲書還是有著本質上的差異。以華語與華文的對應來說,口語體與書寫體的差距就是那麼大。文字上的編排並不總是有辦法直接TTS就讓人聽懂。舉個最簡單的例子:光是同音字「他她」就足以困擾一堆人了,更不要講相同文字搭配不同標點符號所造成的文意差距。這還只是冰山一隅。
TTS就只是把文字讀出聲音的輔具,並不代表TTS後的聲音就直接形成一個新產品。有聲書還是需要經過編輯,才能成為適合閱聽的產品,而含有AI成份的TTS技術會是節省有聲書產製工作量的一個絕佳幫手。
以中國百度執行長李彥宏的《智能交通》為例(他今年跌出政協委員名單了,幫QQ),這種講述趨勢、科技類的文字書,用AI技術轉為有聲書,在內容上已經堪可閱聽。
但這代表《智能交通》有聲書是一部聽者友善的作品嗎?我認為完全不是。書中句間、段間的間隔時長時短,使我的注意力時常跟丟;每一節前後的無謂工商時間,使我聽下來心浮氣躁;專有名詞未有適當註釋,使我只能根據前後文去猜測原始文字,再去蒐尋意思;有些段落的技術細節過多,其實應該刪節,根本不該讀成聲音。這些都是「編輯上」沒有做好的細節。
含有AI成份的TTS會是製作有聲書的好幫手;但有聲書的編輯工作,才是有聲書無法被電子書TTS取代的根本要素。電子書TTS帶給閱聽者的體驗,就只是TTS,就不是有聲書。
3會員
13內容數
留言0
查看全部
發表第一個留言支持創作者!
余孟珂的沙龍 的其他內容
考慮到本片的敘事脈絡,我們可以合理推論這每一種唸法都帶有各自的政治立場與社會關係。這是「口語」做得到,而「文字」做不到的事。在電影字幕上,我們一律只看得到「文清」二字。
一般而言,在影視作品當中使用《安魂曲》,目的就是在暗示死亡的悲悽、陰沉與恐怖。但《黑暗榮耀》製作團隊選用了佛瑞的《安魂曲》,反而營造出一種終將獲得救贖的氛圍,可謂別出心裁。
對於拼音文字來說「我說即我寫」,但華「文」的方塊字卻不是如此,不僅同音字過多以致難以辨別(最簡單的例子是「他她牠它」),複雜歷史因素之下遺留在現代華「文」當中的文言文法(我寫非我說)也會造成聽覺理解障礙,種種因素都讓華文Text To華語Speech在短中期之內不可能完全取代華語有聲書。
我聽了這段demo,簡直聲歷其境,嚇死!😱 想說美國是這麼恐怖的地方嗎???(是。其實臺灣也是。)接著又看到Audible的介紹頁面,引用了聽者回饋,說這部有聲書"dramatically raises the bar on audiobooks",看來所言不假。於是就決定下單了。
我雖然不是天才少年,但要說我完全不能體會天才少年的心境,卻倒也並不精確。我小學唸了五年的智優資源班(大概唸到五年級就撐不太下去了,是硬撐唸完的),國中三年讀得稍微比較接地氣一點(雖然也還是當地的升學名校),高中則是進了一所法西斯主義氣息濃厚的第二志願。
作為產品觀察,這次聽的是Audible的Plus裡面的一門課程《The Art of Storytelling: From Parents to Professionals》。
考慮到本片的敘事脈絡,我們可以合理推論這每一種唸法都帶有各自的政治立場與社會關係。這是「口語」做得到,而「文字」做不到的事。在電影字幕上,我們一律只看得到「文清」二字。
一般而言,在影視作品當中使用《安魂曲》,目的就是在暗示死亡的悲悽、陰沉與恐怖。但《黑暗榮耀》製作團隊選用了佛瑞的《安魂曲》,反而營造出一種終將獲得救贖的氛圍,可謂別出心裁。
對於拼音文字來說「我說即我寫」,但華「文」的方塊字卻不是如此,不僅同音字過多以致難以辨別(最簡單的例子是「他她牠它」),複雜歷史因素之下遺留在現代華「文」當中的文言文法(我寫非我說)也會造成聽覺理解障礙,種種因素都讓華文Text To華語Speech在短中期之內不可能完全取代華語有聲書。
我聽了這段demo,簡直聲歷其境,嚇死!😱 想說美國是這麼恐怖的地方嗎???(是。其實臺灣也是。)接著又看到Audible的介紹頁面,引用了聽者回饋,說這部有聲書"dramatically raises the bar on audiobooks",看來所言不假。於是就決定下單了。
我雖然不是天才少年,但要說我完全不能體會天才少年的心境,卻倒也並不精確。我小學唸了五年的智優資源班(大概唸到五年級就撐不太下去了,是硬撐唸完的),國中三年讀得稍微比較接地氣一點(雖然也還是當地的升學名校),高中則是進了一所法西斯主義氣息濃厚的第二志願。
作為產品觀察,這次聽的是Audible的Plus裡面的一門課程《The Art of Storytelling: From Parents to Professionals》。
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
文/YUHSHAN 圖/LINE 進入2024年的後疫情時代,人類多已恢復正常社交生活、出外用餐聚會,但餐廳面臨新問題——缺工,老闆和員工在接受電話訂位和現場服務之間應接不暇,陷入越忙越亂的困境。為了解決缺工問題,台灣大哥大、LINE、inline、碩網資訊等企業整合各自優勢,推出「AI語
Thumbnail
Suno 是一款免費的 AI 音樂生成工具,只要輸入文字就能輕鬆作曲,無論是英文、中文歌曲,都能依照指定風格生成一首歌曲,最近開放 V3 模型,可以使用V3 模型生成 2 分鐘的歌曲,沒有任何音樂知識,也能輕鬆創作。
Thumbnail
本片原文:日語學習革命:細節到位,連一個音、一個逗點也能精確解釋,又易學 https://vocus.cc/article/6555fc5efd89780001d09434
Thumbnail
目前我使用Zapier的方式,是先上傳一個我在手機上錄的聲音檔(m4a格式)到Googl Drive,然後把聲音檔案串接到OpenAI的Whisper API作為語音辨識的手段,將手機上錄的聲音黨轉換成
Thumbnail
隨著人工智能技術的不斷發展,語音辨識AI作為其中的重要應用之一,正逐漸改變著我們的生活和工作方式。本文將介紹語音辨識AI的原理、應用以及其在不同領域的潛在價值。 嵐海智能|語意分析|智能客服|生成式AI
Thumbnail
要為展覽製作不同語言的解說錄音,但找不到合適的配音人?現今的博物館已經不再只是單一的展示文物,而是透過多媒體的方式來呈現文物背後的故事、歷史和文化背景。 其中一個重要的元素是語音導覽,能夠讓前來參觀的民眾更深入地了解展品和展覽的內容。
近年來,人工智能(AI)在語言理解和情感分析方面取得了重要進展。通過機器學習和自然語言處理(NLP)技術......
Thumbnail
本文介紹了一種全程免費的方法來快速將長時間的音檔轉為逐字稿,不需要花費任何費用。作者建議使用OpenAI的Playground,其中有一個語音轉文字的功能,並支援多種語言。相較於其他需要付費的AI語音轉文字程式,OpenAI的Playground效果非常好,是會議記錄人員的福音。現在,你不需要再花費
Thumbnail
被吸屁屁鬼傻瓜生成機器吸了兩次後,傻瓜加傻瓜就變成了超級菁英!2021年的蠟筆小新電影,狠狠的嘲諷了菁英階級制度,和AI導入教育管理方式。 看到最近AI火紅,再回頭看這部電影格外有感,導入菁英教學和AI管理的學院,校長要AI想辦法讓菁英培育快一點,AI服從指令,但不思考教育要如何改變,只思考要怎麼完
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
文/YUHSHAN 圖/LINE 進入2024年的後疫情時代,人類多已恢復正常社交生活、出外用餐聚會,但餐廳面臨新問題——缺工,老闆和員工在接受電話訂位和現場服務之間應接不暇,陷入越忙越亂的困境。為了解決缺工問題,台灣大哥大、LINE、inline、碩網資訊等企業整合各自優勢,推出「AI語
Thumbnail
Suno 是一款免費的 AI 音樂生成工具,只要輸入文字就能輕鬆作曲,無論是英文、中文歌曲,都能依照指定風格生成一首歌曲,最近開放 V3 模型,可以使用V3 模型生成 2 分鐘的歌曲,沒有任何音樂知識,也能輕鬆創作。
Thumbnail
本片原文:日語學習革命:細節到位,連一個音、一個逗點也能精確解釋,又易學 https://vocus.cc/article/6555fc5efd89780001d09434
Thumbnail
目前我使用Zapier的方式,是先上傳一個我在手機上錄的聲音檔(m4a格式)到Googl Drive,然後把聲音檔案串接到OpenAI的Whisper API作為語音辨識的手段,將手機上錄的聲音黨轉換成
Thumbnail
隨著人工智能技術的不斷發展,語音辨識AI作為其中的重要應用之一,正逐漸改變著我們的生活和工作方式。本文將介紹語音辨識AI的原理、應用以及其在不同領域的潛在價值。 嵐海智能|語意分析|智能客服|生成式AI
Thumbnail
要為展覽製作不同語言的解說錄音,但找不到合適的配音人?現今的博物館已經不再只是單一的展示文物,而是透過多媒體的方式來呈現文物背後的故事、歷史和文化背景。 其中一個重要的元素是語音導覽,能夠讓前來參觀的民眾更深入地了解展品和展覽的內容。
近年來,人工智能(AI)在語言理解和情感分析方面取得了重要進展。通過機器學習和自然語言處理(NLP)技術......
Thumbnail
本文介紹了一種全程免費的方法來快速將長時間的音檔轉為逐字稿,不需要花費任何費用。作者建議使用OpenAI的Playground,其中有一個語音轉文字的功能,並支援多種語言。相較於其他需要付費的AI語音轉文字程式,OpenAI的Playground效果非常好,是會議記錄人員的福音。現在,你不需要再花費
Thumbnail
被吸屁屁鬼傻瓜生成機器吸了兩次後,傻瓜加傻瓜就變成了超級菁英!2021年的蠟筆小新電影,狠狠的嘲諷了菁英階級制度,和AI導入教育管理方式。 看到最近AI火紅,再回頭看這部電影格外有感,導入菁英教學和AI管理的學院,校長要AI想辦法讓菁英培育快一點,AI服從指令,但不思考教育要如何改變,只思考要怎麼完