AI語音TTS可以取代有聲書嗎?

更新於 發佈於 閱讀時間約 3 分鐘
(本文寫於2023年2月6日,回覆董福興的臉書動態
關於「有聲書可以透過TTS朗讀」這點,我認為這當中還是有很多細節待商榷。
首先,對於拼音文字來說「我說即我寫」,但華「文」的方塊字卻不是如此,不僅同音字過多以致難以辨別(最簡單的例子是「他她牠它」,但不只如此),複雜歷史因素之下遺留在現代華「文」當中的文言文法(我寫非我說)也會造成聽覺理解障礙(註1),種種因素都讓華文Text To華語Speech在短中期之內不可能完全取代華語有聲書。長期來說,不知道AI能不能代為優化TTS文本,但以現在的技術來說,這並不「簡單」。
其次,想要以TTS取代有聲書,不同文類也會面對不同的難點。以小說而言,作者可能出於各種原因,將對白放在或不放在引號內,來達成不同的文意,但引號卻難以被TTS(註2),甚至華「文」書寫中的所有標點符號都是如此。而若以專業書籍而言,當作者引進一個新詞彙,某些可以望「文」生義的詞彙,聽覺上卻並不是如此。這些問題都可以透過某些編輯或表演手法使得有聲書成立,但direct TTS卻不成立。
第三,就實際情況而言,就算今天臺灣的電子書全都開通了TTS功能,且需要TTS的聽者/讀者都願意使用這個功能,臺灣作者的文字能力與文字書編輯的編輯觀,也不見得能使TTS直接取代有聲書。光是你我這兩篇文章,在未經適當編輯之下,都不可能直接TTS而讓人聽懂。
我同意TTS可以補足有聲書產能不足所造成的可近障礙(因此我個人贊成已取得TTS授權的出版品都應該開通TTS,而出版商也應該更積極爭取TTS授權),但我認為TTS只是「輔具」,並不是一個獨立的出版品(否則我們難以解釋,為何就算英語世界的電子書普遍都開通了TTS,出版商仍然要花錢錄製有聲書)。我相信具有AI成分的TTS技術可以大幅提升有聲書的產製效能,但「有聲書可以透過TTS朗讀」這個說法如果仔細探究,至少在臺灣的脈絡下,實在無法講得那麼絕對(註3)。
--
註1:比方說,你寫的「但都應該要花力氣做,做好」,你的意思其實是「但都應該要花力氣做,並且把事情做好」,然而如果未經人工校正就直接TTS,一般人的聽覺應該會直接在「做好」那裡當機。
註2:目前在西方媒體上的TTS功能,AI會將"唸成quote、unquote。媒體報導的篇幅短小(再長也不過數千字),且以報導性質居多,我們多聽幾次quote, quote, quote,心情上仍可接受。但短篇小說至少也是萬字起跳,若是把quote全部唸出來,將十分影響聆聽體驗。
註3:其實日語有聲書也有同音異字的困擾。我個人就聽過湊佳苗《往復書簡》有聲書當中的一篇故事,利用同音異字造成故事中的一個重大情節發展(暫且不去論斷這個寫作手法是否成功)。其實編輯可以透過補述,讓同音異字的兩者有所區別;但因為「把文字直接讀成有聲書」的這種編輯觀念仍然相當普遍,使得這部有聲書在聽覺上反而抓不到那個趣味了。
avatar-img
3會員
13內容數
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
余孟珂的沙龍 的其他內容
我聽了這段demo,簡直聲歷其境,嚇死!😱 想說美國是這麼恐怖的地方嗎???(是。其實臺灣也是。)接著又看到Audible的介紹頁面,引用了聽者回饋,說這部有聲書"dramatically raises the bar on audiobooks",看來所言不假。於是就決定下單了。
我雖然不是天才少年,但要說我完全不能體會天才少年的心境,卻倒也並不精確。我小學唸了五年的智優資源班(大概唸到五年級就撐不太下去了,是硬撐唸完的),國中三年讀得稍微比較接地氣一點(雖然也還是當地的升學名校),高中則是進了一所法西斯主義氣息濃厚的第二志願。
作為產品觀察,這次聽的是Audible的Plus裡面的一門課程《The Art of Storytelling: From Parents to Professionals》。
這種題材在口語上的演繹風格並不需要太過繁複、花俏;沉穩但偶有起伏的說話方式就已經非常適合。我認為在口語表現上,這已經是一部成熟的作品;然而在編排上,這部作品還有很大的精步空間。閱聽者也需要自己用大腦過濾掉中國共產黨的政治宣傳。
當代的臺灣華語,已經是融合了各種語言特色、有別於「普通話」的一種華語了,兒化韻已經弱化到幾乎不見。因此,當我聽到在給兒童的有聲書中,仍然充滿著「等會兒(hu-r)」、「小孩兒(ha-r)」、「這件事兒(sh-r)」這種表演方式,就不免感到不合時宜。
關於《偶然與想像》,很多人已經針對劇本發表感想與分析了。但《偶然與想像》在聲音的設計上,也是極其日式精細的。我想來記錄一下三個深深鐫印在我心中的聲音時刻。盡量不劇透,但還是難免有一點點透。
我聽了這段demo,簡直聲歷其境,嚇死!😱 想說美國是這麼恐怖的地方嗎???(是。其實臺灣也是。)接著又看到Audible的介紹頁面,引用了聽者回饋,說這部有聲書"dramatically raises the bar on audiobooks",看來所言不假。於是就決定下單了。
我雖然不是天才少年,但要說我完全不能體會天才少年的心境,卻倒也並不精確。我小學唸了五年的智優資源班(大概唸到五年級就撐不太下去了,是硬撐唸完的),國中三年讀得稍微比較接地氣一點(雖然也還是當地的升學名校),高中則是進了一所法西斯主義氣息濃厚的第二志願。
作為產品觀察,這次聽的是Audible的Plus裡面的一門課程《The Art of Storytelling: From Parents to Professionals》。
這種題材在口語上的演繹風格並不需要太過繁複、花俏;沉穩但偶有起伏的說話方式就已經非常適合。我認為在口語表現上,這已經是一部成熟的作品;然而在編排上,這部作品還有很大的精步空間。閱聽者也需要自己用大腦過濾掉中國共產黨的政治宣傳。
當代的臺灣華語,已經是融合了各種語言特色、有別於「普通話」的一種華語了,兒化韻已經弱化到幾乎不見。因此,當我聽到在給兒童的有聲書中,仍然充滿著「等會兒(hu-r)」、「小孩兒(ha-r)」、「這件事兒(sh-r)」這種表演方式,就不免感到不合時宜。
關於《偶然與想像》,很多人已經針對劇本發表感想與分析了。但《偶然與想像》在聲音的設計上,也是極其日式精細的。我想來記錄一下三個深深鐫印在我心中的聲音時刻。盡量不劇透,但還是難免有一點點透。
你可能也想看
Google News 追蹤
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
我們前面幾篇已經講完TTS技術的一大半架構了,知道了如何將聲學特徵重建回音訊波形,也從中可以知道要是聲學特徵不完善,最終取得的結果也會不自然,剩下要探討該如何將文字轉換成聲學特徵,且能夠自然地表現停頓及細節變化,讓我們開始吧。
Thumbnail
  我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理、預測音訊特徵、語音重建,其中輸入前處理的部分上兩篇已經處理完,在進入預測音訊特徵前,讓我們先來理解最後的語音重建部分。
Thumbnail
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
Thumbnail
這篇文章介紹臺語語詞聽寫軟體,包括聽例句寫語詞和聽語詞來練拼音的。功能有選擇漢字+拼音抑是干焦拼音的練習方式,以及白話字抑臺羅的選擇。透過對答案,使用者能即時瞭解自己的練習結果。使用方式、適用對象以及認證適用性都有詳細介紹。兩個網站提供真有效率的學習方法,幫助學習者提升臺語的聽寫能力。
Thumbnail
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
Thumbnail
書 少年時,我是這麼想得: 閱讀能使得我有書寫的能力。 學習如何闡述得更好,啟發下一個題目的靈感。 然而,書寫太困難了。 所以開始拿著筆記本抄錄喜歡的文句。 抄寫是非常重要的,能一字一句地去汲取著文字, 像是用另外一個方式解讀,挖掘一個又一個沒留意的含義。 但現在看來變成了一種很笨拙地
Thumbnail
這是我第一次接觸到中國簡體書轉繁體書的校對工作,真佩服編輯可以細膩查對台灣用語,抓出台灣與中國用字用語的差異,考驗編輯的功力,也考驗台灣讀者對日常用語的底線,先不談統戰,影片不是視頻,至少書名有守住,其他的部分,真的是如履薄冰,不是普及度的底線,而是常用語被置換的底線,真的想聽聽簡轉繁書籍出版主編的
Thumbnail
文字MP3專業版是簡單且強大的工具,會編輯文字就能創造出專業級配音。簡單 ﹑容易上手,像使用Word,無需剪輯經驗,輕鬆完成調整語速﹑插入空秒﹑插入背景音樂或音效等方面的製作。提供多種語言和配音員選擇,包括純正的臺灣口音。這個工具能應用於各種情境,如教育訓練簡報、有聲書、Podcast等。
Thumbnail
有人堅信語譯的精髓『信、達、雅』,絕對是人工智能無法取代的;有人堅信人工智能勢必完全取代人工筆譯與語譯。 我則以為盡信AI,不如沒有AI。
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
我們前面幾篇已經講完TTS技術的一大半架構了,知道了如何將聲學特徵重建回音訊波形,也從中可以知道要是聲學特徵不完善,最終取得的結果也會不自然,剩下要探討該如何將文字轉換成聲學特徵,且能夠自然地表現停頓及細節變化,讓我們開始吧。
Thumbnail
  我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理、預測音訊特徵、語音重建,其中輸入前處理的部分上兩篇已經處理完,在進入預測音訊特徵前,讓我們先來理解最後的語音重建部分。
Thumbnail
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
Thumbnail
這篇文章介紹臺語語詞聽寫軟體,包括聽例句寫語詞和聽語詞來練拼音的。功能有選擇漢字+拼音抑是干焦拼音的練習方式,以及白話字抑臺羅的選擇。透過對答案,使用者能即時瞭解自己的練習結果。使用方式、適用對象以及認證適用性都有詳細介紹。兩個網站提供真有效率的學習方法,幫助學習者提升臺語的聽寫能力。
Thumbnail
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
Thumbnail
書 少年時,我是這麼想得: 閱讀能使得我有書寫的能力。 學習如何闡述得更好,啟發下一個題目的靈感。 然而,書寫太困難了。 所以開始拿著筆記本抄錄喜歡的文句。 抄寫是非常重要的,能一字一句地去汲取著文字, 像是用另外一個方式解讀,挖掘一個又一個沒留意的含義。 但現在看來變成了一種很笨拙地
Thumbnail
這是我第一次接觸到中國簡體書轉繁體書的校對工作,真佩服編輯可以細膩查對台灣用語,抓出台灣與中國用字用語的差異,考驗編輯的功力,也考驗台灣讀者對日常用語的底線,先不談統戰,影片不是視頻,至少書名有守住,其他的部分,真的是如履薄冰,不是普及度的底線,而是常用語被置換的底線,真的想聽聽簡轉繁書籍出版主編的
Thumbnail
文字MP3專業版是簡單且強大的工具,會編輯文字就能創造出專業級配音。簡單 ﹑容易上手,像使用Word,無需剪輯經驗,輕鬆完成調整語速﹑插入空秒﹑插入背景音樂或音效等方面的製作。提供多種語言和配音員選擇,包括純正的臺灣口音。這個工具能應用於各種情境,如教育訓練簡報、有聲書、Podcast等。
Thumbnail
有人堅信語譯的精髓『信、達、雅』,絕對是人工智能無法取代的;有人堅信人工智能勢必完全取代人工筆譯與語譯。 我則以為盡信AI,不如沒有AI。