今年年初,OpenAI推出ChatGPT應用程式,正式開啟了全球生成式AI(AI Gernative Content; AIGC)的序幕。
目前表現較出色的,文字生成有ChatGPT和文心一言,圖片生成有Midjourney,影片生成有DeepBrain和Kaiber,聲音生成則有Fliki和LOVO,這些都是科技創新的一大突破。
這項新技術悄悄進入我們的生活與工作場域,許多專欄與新聞開始關注使用者──「人」,未來究竟還有多少工作機會?科技將如何取代人類的工作?
前陣子跟一位公司創辦人聊天,他說公司裡的文字編輯相當抗拒使用ChatGPT,原因是擔心有朝一日被取代。創辦人苦口婆心告訴員工,若是擅長的專業,應當是親自撰寫文章;但碰到不熟悉的領域,生成式AI發揮的效力,也許比「人」還好。因此他鼓勵員工發揮自己的才華之外,也該讓生成式AI提高生產效率。
員工嘴上雖然說好,但產出的作品很明顯的沒有與這位敏捷的「助手」協作。最後,員工遭解雇,創辦人自己用生成式AI輔助,兼職當文字編輯。
生成式AI運用在影片場域,大致有兩種模式:一種是從文本變成影片,近期已有國內電視台使用AI虛擬主播播報新聞;另一種則是由AI讀取文本內容後,從資料庫抓取適合的圖片或影像。
那麼聲音呢?其實坊間有許多AI生成聲音的應用軟體,我也嘗試使用了目前比較流行的幾種。有意思的是,目前支援跨語言生成聲音內容已不成問題,若讀者常使用Youtube和抖音Tiktok,不難發現許多敘述電影故事的影片,搭配了「清新男聲」,就算是不同創作者上傳的影片,聲音也都如出一轍,其實那些都是利用生成式AI合成的聲音。
近期與另一好友聚會,他旗下的企業算是國內AI生成的佼佼者,透過錄音,能訓練語音模型,一旦訓練完成,就能讓專屬你的AI發出你的聲音。
既然聲音可以拷貝,那「人」的價值在哪裡呢?在情緒。
好友說目前他們製作的音檔,比較適合播報新聞或旁白,若要表現情緒,只能放慢語速或增加重音。他們的產品搭配AI生成影像,因此可以透過人的表情,加深聲音表情。
國外某些AI語音模型雖然可以選擇情緒,但假的AI語音跟真人在情感表達與傳遞能力上,確實有落差。
再者,情緒選擇需要批次處理,也就是一個故事如果出現的情緒有十種,不同段落的生成,需要批次處理再剪輯。目前比較受歡迎的幾種AI語音模型,也只有特定幾個聲音能選擇情緒。
在生成式AI席捲全球的同時,備受關注的議題,除了人的價值,就是AI內容產出的所有權與智慧財產權了。
智慧財產權,原則上歸屬於法人或自然人,而AI生成的內容顯然介於模糊地帶。若只是利用AI輔助生成,主要創作者是人,那麼權利自然歸人;但創作者若只是下指令,圖片產出由AI操刀,創作者使用AI究竟屬於輔助創作,還是獨立創作?
用自己的聲音訓練的模型,就算產出了熱呼呼的內容,聲音情緒卻是冷冰冰的,著實乏味;一篇感動五內的故事,變成不帶情緒的新聞播報,未免可惜。在AIGC盛行的年代,有人味的聲音,還是最容易凸顯人的價值。