關於「有聲書可以透過TTS朗讀」這點,我認為這當中還是有很多細節待商榷。
首先,對於拼音文字來說「我說即我寫」,但華「文」的方塊字卻不是如此,不僅同音字過多以致難以辨別(最簡單的例子是「他她牠它」,但不只如此),複雜歷史因素之下遺留在現代華「文」當中的文言文法(我寫非我說)也會造成聽覺理解障礙(註1),種種因素都讓華文Text To華語Speech在短中期之內不可能完全取代華語有聲書。長期來說,不知道AI能不能代為優化TTS文本,但以現在的技術來說,這並不「簡單」。
其次,想要以TTS取代有聲書,不同文類也會面對不同的難點。以小說而言,作者可能出於各種原因,將對白放在或不放在引號內,來達成不同的文意,但引號卻難以被TTS(註2),甚至華「文」書寫中的所有標點符號都是如此。而若以專業書籍而言,當作者引進一個新詞彙,某些可以望「文」生義的詞彙,聽覺上卻並不是如此。這些問題都可以透過某些編輯或表演手法使得有聲書成立,但direct TTS卻不成立。
第三,就實際情況而言,就算今天臺灣的電子書全都開通了TTS功能,且需要TTS的聽者/讀者都願意使用這個功能,臺灣作者的文字能力與文字書編輯的編輯觀,也不見得能使TTS直接取代有聲書。光是你我這兩篇文章,在未經適當編輯之下,都不可能直接TTS而讓人聽懂。
我同意TTS可以補足有聲書產能不足所造成的可近障礙(因此我個人贊成已取得TTS授權的出版品都應該開通TTS,而出版商也應該更積極爭取TTS授權),但我認為TTS只是「輔具」,並不是一個獨立的出版品(否則我們難以解釋,為何就算英語世界的電子書普遍都開通了TTS,出版商仍然要花錢錄製有聲書)。我相信具有AI成分的TTS技術可以大幅提升有聲書的產製效能,但「有聲書可以透過TTS朗讀」這個說法如果仔細探究,至少在臺灣的脈絡下,實在無法講得那麼絕對(註3)。
--
註1:比方說,你寫的「但都應該要花力氣做,做好」,你的意思其實是「但都應該要花力氣做,並且把事情做好」,然而如果未經人工校正就直接TTS,一般人的聽覺應該會直接在「做好」那裡當機。
註2:目前在西方媒體上的TTS功能,AI會將"唸成quote、unquote。媒體報導的篇幅短小(再長也不過數千字),且以報導性質居多,我們多聽幾次quote, quote, quote,心情上仍可接受。但短篇小說至少也是萬字起跳,若是把quote全部唸出來,將十分影響聆聽體驗。
註3:其實日語有聲書也有同音異字的困擾。我個人就聽過湊佳苗《往復書簡》有聲書當中的一篇故事,利用同音異字造成故事中的一個重大情節發展(暫且不去論斷這個寫作手法是否成功)。其實編輯可以透過補述,讓同音異字的兩者有所區別;但因為「把文字直接讀成有聲書」的這種編輯觀念仍然相當普遍,使得這部有聲書在聽覺上反而抓不到那個趣味了。