首先,我要先對之前關注此系列的人說聲抱歉,之前因為自己的技術瓶頸,讓進度遲遲無法推進,最後只好暫時擱置。
而放著放著,居然也就到隔年,也該是時候為這段空白,給出一些交代了。
於是,鍵盤再度響起。
這個專案最初目的,是想搭建一個能顯示虛擬角色,並在設定的時間中以指定聲線提醒,平時也可以偶爾說些幹話的設備。
雖然先前僅達成最基本功能後就暫停,但所幸在這段期間中,這個「半成品」還是爭氣的持續穩定運作著。
每天在固定的時間,用著估狗小姐平淡的聲音,提醒著排定的事項,不時噓寒問暖。
雖然這代表著之前所完成的開發進度並沒有白費,但心中多少還是會掛念著她的不完美,以及無法達成理想的缺憾。
直到了那日,我終於狠下了心。
說回這次回歸計畫的主要動力,其實是在去年(2023)年底時,終於購入的一塊特價中的樹莓派 4B+ 8GB 版。
自從之前最開始那塊 0W 損壞後,這個專案中使用的,一直都是一塊舊的 3B+ 開發板。
原本以為相較於小板子,應該會有更好的效能才對,但事實卻證明,我可能太過抬舉它了。
尤其是要面對計畫加入的各種會牽扯到 AI 運算的功能,他那少的可憐的規格早已吃不消。
也希望藉這次的升級,能帶來更多效能上的餘裕。
在這次的計畫重啟後,首要想要實作的,當然就是遲來的自訂聲線能力。
其實於此之前,我便已在這部分的方案選擇上花費不少時間。
從算法、支援語言、模型訓練成本,一直到該如何落地使用等,各面向都做了比較。
但礙於當時一直無法順利取得平衡,以達到所需效果,最後也就不了了之,並採用最簡易的 GTTS 作為填補流程的方案。
而在這次的升級後,除了新硬體帶動外,也多虧了近期相關資訊及流程,都已經比當初開啟計畫時更加成熟了。
因此我只要在之前已完成的基礎下,將原本的 TTS 模組,替換為新的 VITS 模型 API 後,便能達到自訂聲線的目的。
而在這次更動後,除了聲音模型可依喜好更換外,也順帶解鎖了離線合成的能力。
由於模型的推論是在本機端執行,因此除了部分需要抓取資訊的模組(如天氣、搜尋)之外,整套系統終於能達成意義上的離線運作。
至於聲線的部分,基於創作者的尊重以及道德,我就不使用別人的聲音,而是直接拿自己的錄音存檔做調整後,再丟下去模型訓練了。
不過至此,重啟的腳步,仍尚未停歇。
雖然現在再談這個計畫,可能已經有些慢了,在這種 AI 百花亂綻的時代,與此相似的專案比比皆是。
像是市面上不同軟硬體公司既有的舊產品線,只要透過外掛擴充或系統升級,接上 ChatGPT 引擎,並加入客製化資料後,又是一個強大的虛擬助理誕生。
就算是從零打造的新專案,或許只要整合幾個現成的服務 API,便能獲得一個小而實用的 AI 作品。
不過,礙於個人奇怪的(?)堅持,我應該還是維持自己步調,慢慢來吧。
另外,之前為了快速開發與展示,在顯示角色部分,直接使用過去繪製的初音來做暫時擔當。
但考量到後續發展,我便另外為她設計了一個新形象,也同時做好了 Live2D 模型。
在 E-Ink 上呈現效果也還算可以,後續應該就會繼續以這個形象來做呈現。
之後還請多指教啦!
最後來總結一下目前專案計畫中及完成的部分吧。
【達成】
→ 最早引入的功能,運作依然正常!
【部分達成】
→ 可使用靜態影像倫替,但原本計畫的即時 Live 2D 渲染仍找不到解方。
【達成】
→ 至目前為止實裝的系統,皆能夠在離線狀態下運作,或在離線狀態下,可切換其他模式作替代。
【達成】
→ 成功加入 TTS(Text to Speach)推論能力,且可以透過更換模型來切換聲線。
【計畫中】
→ 離線資料庫查詢、聊天機器人等。
雖然還無法將當紅的 LLM( Large Language Model )機能放進來,但使用之前開發的聊天機器人為基礎,已可達成基本的模組控制,跟幹話(?)對答。
總之,對於這個專案,未來短期內的重點目標,應該會先放在完整她的語音輸入及輸出流程,讓她能盡量脫離電腦及網路獨立運作。
最後也感謝螢幕前的朋友耐心看到這裡,我們就之後筆記或難眠之夜再見囉!
《全文。待續》