說到AI朗讀,大家想到的是什麼?是google小姐的聲音?很機械音的冰冷感?如果是這樣那你一定沒有聽過好的AI朗讀!
因為最近一直在關注有聲書,AI朗讀有聲書已經發展多年,
在演播人員哪裡找飯吃?一文中我故意漏掉了一點沒說,就是聲音授權研究和使用。大型的音頻平台在累積了大量的聲音庫之後,也同時做聲音的數據研究,AI的語音開發就是其中一種,目前在喜馬拉雅平台上,已經可以開放上傳一定節目量的用戶,有償授權聲音給喜馬拉雅使用,主要是授權給廣告主產生短視頻廣告播讀,聲音的主人在授權時可以選擇授權領域,例如,只授權給家具類、汽車類、教育類、零食類的廣告主使用。
而廣告主有需求時,可以在平台上挑選需要的聲音,輸入文稿,設定參數,然後就獲得了一條廣告語音了。
聲音的主人是採用分潤的方式,也就是獻聲後,有人用了,就在家躺賺就行。
如果大家刷抖音時,曾看到過那種「99包郵」、「點擊下方小黃車來上一單」的廣告,有不少都已經是AI生成的。
像這種採集聲音後,將文字轉語音TTS( text-to-speech)的還有一個常見的應用,就是汽車導航,或是汽車提示語音,例如:"請繫上安全帶、我們出發囉",像這類的試音單,在市面上看到的機會不少,一般會給個5、6句,事後他們怎麼用,我就不清楚了。
對我的收聽習慣來說,一個好的AI朗讀基礎要做好以下的學習:節奏、重音停連、抑揚頓挫。這個是一個「人」能表達出「講述感」很重要的基本原素,早期的AI朗讀為什麼會覺得機械,就是因為無法做好字與字間的快慢節奏、缺乏重音,連帶當然沒有抑揚頓挫。如果是要AI模仿人的音色,相對來說較為簡單,要能把AI調教成「這個人就像在你耳邊跟你說話」,那就高明了!
回到有聲書領域,建立在豐富的聲音資料庫基礎上,AI朗讀的有聲書已經可以做到接近「在你耳邊娓媚道來」的程度,在有聲書的開發上,除了直接用AI朗讀後再調校外,也有真人演播+AI朗讀共同合作的方式來製作。
AI朗讀能否取代真人演播,一直是中國有聲書演播圈一個時不時就會被提出的話題,老師們有時候也會恨鐵不成鋼地說出:「你再不把這個毛病改掉,你就會被AI取代了!」。不過為了提高製作效率,AI朗讀是一定會存在且被廣泛利用的,所以「演播員」和「AI朗讀」誰優誰劣也被拿出來比較,這大概就跟最近的AI畫圖和畫家的討論一樣。
真人演播與AI朗讀最大的差別就是「氣」,機器是沒有「氣」的,而在演播配音的訓練中,很重要的一環就是「氣的運用」,氣的使用可以在聽覺上建立這個人的真實感,引發聽眾的感受,例如,身而為人,我們會知道「這人講這話,是在諷刺吧」「可能要生氣了」「怎麼還在生氣」「這聽起來像是有什麼瞞著我」 ……目前我聽比較厲害的AI,會用弱化某個字來打造氣息的效果,也能做到接近真人。但如果這個是生成後手動調的……還要手動,那我就不叫它AI了。
我目前還沒聽到AI能好好模仿:清宮宮鬥戲中后妃們互相較勁的對白、「哥哥,你女朋友是不是在生氣」的綠茶、妖里妖氣的狐媚子……而人聲和氣聲混雜的發聲最多的,還屬謎片了!
我想這應該也是為什麼有些有聲書製作,會一部分AI、一部分真人了。
今天寫這篇文章,是因為偶然看到天下雜誌「聽天下」這個計劃,推薦大家可以去聽一下 聽天下的AI朗讀 Sky錄製的文章朗讀。台灣現在的AI朗讀可以做到這個程度,拍手!GOOD JOB!!!
因為我比較關注有聲小說的發展,有很多有聲小說也都是用AI朗讀錄製,錄得好的,我大概要聽3分鐘以上才會覺得怪怪的,甚至用AI講評書都可以。已經可以幹掉一堆人了。
最後說說我覺得AI朗讀是否會取代真人演播,當然不可能。演播是一種藝術,每一個人讀到相同的文字,都會觸發自己記憶中的片段,引發心靈上不同的感受。在學演播的過程中,老師帶我們討論一篇故事文稿的「基調」的怎麼定時,老師要我們說出這篇故事要傳達什麼,結果每個同學出來的是「大同小異」,這個「小異」來自大家個人的感受,也將會在演播中,大大發展成「個人風格」。同樣一篇故事,有的同學可能感動得更多,帶入感多了,幾乎讀到泫然欲泣,這種用人意志來控制到底要維持專業不准哭、還是就只能忍一部分不哭出來,還是就哭了、小哭、爆哭就不是AI自己幹得出來的。而這個心理層面影響了演播的演繹,也會讓每個演播員在重點、停連有不同的表演方式,例如在演播一些動人或懸疑的段落人,演播員會用會「長長的留白」這種技巧,來堆積聽眾的感動或緊張,這種留白要留多長,也是取決於演播員自己對文稿的理解與藝術的表現。這種技巧,在音樂歌曲子,就是中間空個一小節,然後下一個小節又華麗出場這樣。