[人工智障計畫] #3 硬體新聲級!|計畫重啟的這與那

2024/02/05閱讀時間約 4 分鐘

文前碎碎唸

首先,我要先對之前關注此系列的人說聲抱歉,之前因為自己的技術瓶頸,讓進度遲遲無法推進,最後只好暫時擱置。

而放著放著,居然也就到隔年,也該是時候為這段空白,給出一些交代了。


於是,鍵盤再度響起。

初心回顧

這個專案最初目的,是想搭建一個能顯示虛擬角色,並在設定的時間中以指定聲線提醒,平時也可以偶爾說些幹話的設備。

雖然先前僅達成最基本功能後就暫停,但所幸在這段期間中,這個「半成品」還是爭氣的持續穩定運作著。

每天在固定的時間,用著估狗小姐平淡的聲音,提醒著排定的事項,不時噓寒問暖。

雖然這代表著之前所完成的開發進度並沒有白費,但心中多少還是會掛念著她的不完美,以及無法達成理想的缺憾。


直到了那日,我終於狠下了心。

只能硬改

說回這次回歸計畫的主要動力,其實是在去年(2023)年底時,終於購入的一塊特價中的樹莓派 4B+ 8GB 版。

raw-image

自從之前最開始那塊 0W 損壞後,這個專案中使用的,一直都是一塊舊的 3B+ 開發板。

原本以為相較於小板子,應該會有更好的效能才對,但事實卻證明,我可能太過抬舉它了。

raw-image

尤其是要面對計畫加入的各種會牽扯到 AI 運算的功能,他那少的可憐的規格早已吃不消。


也希望藉這次的升級,能帶來更多效能上的餘裕。

說起新聲

在這次的計畫重啟後,首要想要實作的,當然就是遲來的自訂聲線能力。

其實於此之前,我便已在這部分的方案選擇上花費不少時間。

從算法、支援語言、模型訓練成本,一直到該如何落地使用等,各面向都做了比較。

但礙於當時一直無法順利取得平衡,以達到所需效果,最後也就不了了之,並採用最簡易的 GTTS 作為填補流程的方案。

raw-image

而在這次的升級後,除了新硬體帶動外,也多虧了近期相關資訊及流程,都已經比當初開啟計畫時更加成熟了。

因此我只要在之前已完成的基礎下,將原本的 TTS 模組,替換為新的 VITS 模型 API 後,便能達到自訂聲線的目的。

而在這次更動後,除了聲音模型可依喜好更換外,也順帶解鎖了離線合成的能力。

raw-image

由於模型的推論是在本機端執行,因此除了部分需要抓取資訊的模組(如天氣、搜尋)之外,整套系統終於能達成意義上的離線運作。

至於聲線的部分,基於創作者的尊重以及道德,我就不使用別人的聲音,而是直接拿自己的錄音存檔做調整後,再丟下去模型訓練了。


不過至此,重啟的腳步,仍尚未停歇。

這一步走下一步

雖然現在再談這個計畫,可能已經有些慢了,在這種 AI 百花亂綻的時代,與此相似的專案比比皆是。

像是市面上不同軟硬體公司既有的舊產品線,只要透過外掛擴充或系統升級,接上 ChatGPT 引擎,並加入客製化資料後,又是一個強大的虛擬助理誕生。

就算是從零打造的新專案,或許只要整合幾個現成的服務 API,便能獲得一個小而實用的 AI 作品。


不過,礙於個人奇怪的(?)堅持,我應該還是維持自己步調,慢慢來吧。

新年新形象

另外,之前為了快速開發與展示,在顯示角色部分,直接使用過去繪製的初音來做暫時擔當。

raw-image

但考量到後續發展,我便另外為她設計了一個新形象,也同時做好了 Live2D 模型。

raw-image

在 E-Ink 上呈現效果也還算可以,後續應該就會繼續以這個形象來做呈現。


之後還請多指教啦!

結語

最後來總結一下目前專案計畫中及完成的部分吧。

  • 代辦事項通知【達成】

→ 最早引入的功能,運作依然正常!

  • 顯示角色形象【部分達成】

→ 可使用靜態影像倫替,但原本計畫的即時 Live 2D 渲染仍找不到解方。

  • 便攜及離線使用【達成】

→ 至目前為止實裝的系統,皆能夠在離線狀態下運作,或在離線狀態下,可切換其他模式作替代。

  • 指定聲音提示【達成】

→ 成功加入 TTS(Text to Speach)推論能力,且可以透過更換模型來切換聲線。

  • 其他項目【計畫中】

→ 離線資料庫查詢、聊天機器人等。

雖然還無法將當紅的 LLM( Large Language Model )機能放進來,但使用之前開發的聊天機器人為基礎,已可達成基本的模組控制,跟幹話(?)對答。

總之,對於這個專案,未來短期內的重點目標,應該會先放在完整她的語音輸入及輸出流程,讓她能盡量脫離電腦及網路獨立運作。


最後也感謝螢幕前的朋友耐心看到這裡,我們就之後筆記或難眠之夜再見囉!

《全文。待續》


25會員
175內容數
偽命名並非無名,是為了意識的生存,取得身份的代號,成為數位生命的新載具。
留言0
查看全部
發表第一個留言支持創作者!