[人工智障計畫] #1 畫框中的虛擬助理 | 起源與硬體準備

2023/03/14閱讀時間約 5 分鐘

文前碎碎念

又一段時間沒寫文了,看來又該是時候開啟一個新坑作為生存證明了(?
前一陣子,我跟平常一樣在滑 Twitter 時,一則貼文引起了我的注意,那是一個有趣的構想。
讓 VTuber 的『皮』能夠在工作的時候常駐在一邊,並且在必要時,用 V 的聲音來 追殺 提醒未完成的代辦事項。
由於時間有些久遠,以致於我無法回頭尋找到那篇貼文,但以我的理解大致就是這樣的功能。
雖然以現在既有的產品來看,這其實並非一個特別新的概念,甚至一些既有的虛擬助理,或是過去也曾出現過像是 Gatebox 這類產品,也都可以輕鬆做到。
但剛好我自己擱置中的 SideProject 清單中,就有一個蠻相似的項目,我思考了一下,何不就趁這個機會試著把它做出來呢?

於是乎,一個新坑就這麼開啟了。

預期功能

首先,我們來統整一下,目前這項專案預期可達成的功能:
  • 顯示角色形象,並依情境變換動作。
  • 讓使用者輸入,或是透過既有 API 獲取代辦事項。
  • 使用指定聲音向使用者提示。
  • 其他互動項目,如聊天機器人、資訊預報、環境變化反應…(次要)。
  • 最好能夠做到離線執行,以及方便移動。

硬體準備

根據以上列表,我決定再次請出我們的萬用老朋友『樹莓派』來作為這次專案的主要核心。
萬用樹莓派
不過在規格上,由於手邊空餘的材料,只有一代的 Pi Zero W 主板,因此可以預期到效能會有所限制,在最終的功能上可能還需稍作斟酌。
外觀部分,這次我想使用『相框』作為整個設備的主體,而為了能讓畫面呈現出照片或圖畫的感覺,在顯示器的選擇上是以電子紙顯示器取代一般 LCD 螢幕作為顯示媒介。
這樣一來,雖然電子紙在成色效果或是畫面更新率等方面都無法與 LCD 相提,但因為電子紙的畫面呈現原理與一般紙張相似,是透過反射環境光線讓眼睛能夠看到內容。
而且其本身也不會像一般螢幕一樣有背光照亮,因此擺在桌面上就跟放著一張照片一樣,就算光線昏暗的情況下,也不會讓眼睛一直有光線干擾的感覺。
再加上電子紙只有在更新畫面時會消耗電力,因此也能順勢達到省電的效果。
最後,考慮到要讓本體能夠進行語音的輸入輸出,因此還會需要另外連接音效卡才能執行相關的訊息接收與互動。

總結以上,我們能夠整理出這次專案硬體最基礎所需如下:
  • 樹莓派單板電腦(主機)
  • SD卡、Micro USB 傳輸線(樹莓派配件)
  • 電子紙顯示器模組(附控制板為佳)
  • USB 音效卡
  • 喇叭、麥克風
  • 小型畫框

組裝成型

經過數日的折騰(其實主要是零件訂購運送,還有中間卡到 228 連假)之後,初步的本體外觀以及硬體終於成形了。
作為本體的小型金屬相框,是在大創以 49 元購買的,背後則是以廢棄的硬殼塑膠包裝切割出主板的連接孔位作保護。
而為了保留維修以及硬體更新的彈性,這裡就不將背蓋黏死,而是以書局購買的強力磁鐵作為固定。
螢幕部分則是選用一塊 Waveshare 所生產的 4.01 吋 7 色電子紙顯示器,主板本身已經有整合控制板,以及樹莓派專用的 40 針連接埠,因此基本上組裝後下載驅動就能使用。
而雖然撰文當下,另外購買的音效卡還在路上,但透過簡單魔改顯示器的範例程式後,也能大致的看出最終期望的效果。
V 皮還沒辦法處理,只好先把咪哭關進去(X
接下來要做的,就是把主要的控制程式寫出來啦~

後記

其實嚴格來說,要達成這個專案的目的,不一定需要使用倒樹莓派。
直接使用小型副螢幕,搭配 PC / Mac 的軟體控制也行,或甚至製作成類似桌面小精靈的工具,開在旁邊執行嘛ㄟ通,效能也絕對相比樹莓派要好。
而且就在我開始撰文的期間,其實也有看到 Twitter 上,有另一位網友有推出自己做的虛擬助理成品影片,外觀及使用效果就像下面這篇貼文。
雖然我無法完全理解日文,不過以這位網友所附筆記的大致內容,以及實體運作的畫面判斷,他應該是使用 Unity 製作界面,並連接 ChatGPT 作為後台服務,最後用 LookingGlass 這款可以呈現裸視 3D 效果的特殊顯示器來輸出。
不過,由於我個人主要的工作設備是筆電,本身的連接埠就有限,再加上個人比教偏向於成品不需要太多依賴便能運作,因此最終還是決定以現在這種形式來完成。

最後來說說前面提到的 Gatebox 這個神奇的產品。
Gatebox 最初是由日本新創 Vinclu 公司(後來被 Line 收購,為現在旗下子公司 Gatebox inc.)所推出的,具 3D 人物形象的虛擬管家設備,主打的特色是:
「讓人體驗與喜歡的角色一起生活的感覺」
其背後的產品概念,也就是結合智慧家居、語音助理、聊天機器人,並以一個虛擬形象作為互動媒介而成形。
而開發團隊也似乎準備搭上這波 AI 風潮,近期亦有看到準備開發引入 ChatGPT 功能,並啟動募資專案(已達標)的消息。
雖然我自己開的這個坑,以目前的成果來看,想要達成這種效果簡直是癡人說夢,但至少會盡力讓它滿足一開始所提出的期望功能。

What's Next ?

第一部分紀錄就大致到這裡,與過去發的單篇不同,這是一個比較長期的計畫,因此我決定另開一個新專題來做存放。
後續階段成果也會像這篇一樣公開發佈於此,若對詳細 肝苦 的製作過程有興趣,也可訂閱參考「難眠之頁」的部分喔。

《全文。待續》

註:一般公開內容,主要紀錄階段性的成品效果、大略的製作規劃,以及可釋出的原始碼。而「難眠之頁」中則是包含較詳細的開發過成,如細部硬體參數或是程式修正流程等,內容相對較為繁瑣,但適合想細部了解或共同研究專案的人食用(?)。
為什麼會看到廣告
25會員
172內容數
偽命名並非無名,是為了意識的生存,取得身份的代號,成為數位生命的新載具。
留言0
查看全部
發表第一個留言支持創作者!
從 Google News 追蹤更多 vocus 的最新精選內容