前幾天和朋友們閒聊,話題不知不覺轉到「要不要添購一台 AI 語音錄音器來提升工作效率」上。這場討論讓我一直在思考:現代虛擬助理早已不僅存在於軟體平台上,事實上,許多硬體公司也已悄悄將生成式 AI 融入他們的產品之中,試圖以更直覺、即時的方式,為使用者提供隨時高效的虛擬助理服務。
撇開較難攜帶的虛擬助理硬體裝置,如果聚焦在攜帶型硬體產品上,虛擬助理的大致可以分為幾類型:一是以錄音與會議記錄為主的設備,二是搭載拍照、搜尋與翻譯功能的智慧眼鏡。此外,像翻譯神器、 AI Notebook,以及深植於手機生態系統的蘋果 Siri,也都是當前市場上的熱門產品。
一開始在TED Talk打響名號的Humane AI Pin,最終的嘗試是一個 AI 硬體裝置的失敗案例。這款產品試圖以無螢幕、純語音互動的方式,想要重塑我們使用 AI 的方式。可惜,硬體設計問題重重,用戶介面不直覺,在嘈雜環境中語音辨識效果不佳,加上699美元的售價與每月24美元的高昂訂閱費,讓市場幾乎沒有興趣買單。

不過,即便如此,這種「語音介面」的方向仍然為其他硬體廠商提供了寶貴靈感。畢竟,相較於視覺處理,自動語音辨識 (ASR)技術對一般製造商來說門檻較低、硬體裝置功耗也更小。特別是在消費裝置領域,待機時間長,易於部署,市場接受度高。

這也是為什麼我們今天可以看到許多中國品牌大量推出以「會議語音記錄」為核心的產品,結合生成式 AI 直接產生會議摘要、同步筆記、短期記憶管理等功能。不過這類產品幾乎也不是單次買斷,而是以使用量或訂閱制進行變現。
另一方面,像 Ray-Ban Meta 智慧眼鏡這類「影像型虛擬助理」則走上了另一條路,Meta 為眼鏡搭載了 Meta AI,能夠根據用戶指令拍照、搜尋、解釋環境中的物體,真正把虛擬助理帶到了第一人稱視角,目前用途屬偏輕量。不過,這種視覺裝置最大的瓶頸仍然是電池技術,目前即便是適度使用,也僅能連續使用約四小時。換句話說,在真正突破續航力瓶頸之前,視覺裝置的「酷炫感」仍舊被硬體條件嚴重限制。至少對我來說,視覺功能令人印象深刻之處在某種程度上已經被削弱了,而語音功能與語音聊天之所以令我印象深刻,正是因為它很簡單。
語音型與視覺型虛擬助理硬體比較
- 語音型(如會議錄音記錄器)
- 優點:後端處理成熟,生成式 AI 可以快速整理重點;特別適合即時追蹤、事後歸納。
- 缺點:僅能處理語言訊息,對環境變化或影像資訊無法感知。
- 視覺型(如 Meta 智慧眼鏡)
- 優點:能夠即時觀察周遭環境,並結合語音互動,提升資訊豐富度。
- 缺點:資料處理如果量大,電力消耗高,目前使用時間有限,且使用場景受限。
這場語音與視覺裝置的比拚,某種程度上也透露出下一代虛擬助理的演進脈絡:從單一的聽覺感知,邁向多模態的影像感知,在視覺裝置之前,語音型的裝置會有不錯的發展。
蘋果Siri
最後聊聊蘋果的Siri,我認為手機還是目前最好的 AI 硬體載體,今年三月,蘋果宣佈將延後推出強化版 Siri,這對許多期待蘋果的 Apple Intelligence 大爆發的果粉來說無疑很大的失望。在蘋果未來的 Apple Intelligence 願景中,希望 Siri 將結合 iPhone 裝置端小型生成式模型與 Private Cloud Compute,提供更強大又更注重隱私的虛擬助理體驗。這不只是一次功能更新,而是隱私價值觀上和其他科技大廠的排他性,鮮明宣言用戶資料即便上雲,也不被儲存或分享,真正落實端到端的隱私保護。
去年,蘋果還特地拍攝了一支廣告,由貝拉·拉姆齊(Bella Ramsey)主演,內容情境在她向 Siri 詢問上個月在某家餐廳見過的熟人名字。廣告中,Siri 能即時從日曆、郵件、訊息中推理出答案,看似平常,實際上卻牽涉到極高階的非結構化資料搜尋與語境理解技術。
這類模糊查詢加上長期記憶管理的技術門檻極高,不僅要須要在資料先備份在私有雲端,在理解非結構化的用戶輸入並匹配到正確記錄,涉及語言處理模型和上下文推理後,快速檢索幾個月前的記錄需要優化的本地數據庫搜索技術,最後用戶體驗必須即時且自然準確的回應,要在數秒內完成自然、流暢的回應。換言之,這並非單純把 LLM 塞進手機就能做到的事。這或許也能解釋,為什麼蘋果在延後 Siri 強化版發布後,悄悄將當初的宣傳廣告在 YouTube 設為私密。
在蘋果增強版 Siri 尚未正式登場之前,暫時只好將期待寄託在 AirPods的即時翻譯對話功能上,期待它能為 AI 硬體裝置帶來一點驚喜。
營運方的虛擬助理價值
在研究的同時剛好看到一份麥肯錫的報告,探討了組織如何調整以從生成式人工智慧中獲取價值。對企業來說,組織使用生成式 AI 的資訊,特別是提到最常使用文字輸出(會議記錄、文案…等),其次才是圖像和電腦程式碼,這與我們討論過的語音生成會議的功能較多有一些呼應之處。

根據麥肯錫的調查,Exhibit 7 的圖表說明了受訪者預期在未來三年內,由於生成式 AI (gen AI) 的使用,其組織內各個業務部門的員工數量將會如何變化。這個分析只針對那些表示其組織在特定業務部門有使用生成式 AI 的受訪者。每個業務部門(例如:服務營運、供應鏈/庫存管理、人力資源、製造、風險、法律與合規、策略與企業財務、行銷與銷售、軟體工程、知識管理、資訊科技、產品/服務開發以及整體)都用一個堆疊的長條表示,分別顯示預期員工數量會「減少超過 20%」、「減少 11–20%」、「減少 3–10%」、「沒有變化」、「增加 3–10%」、「增加 11–20%」或「增加超過 20%」的受訪者比例。同時也包含「不知道/不適用」的選項。
總結了發現,在服務營運和供應鏈/庫存管理部門,較多的受訪者預期生成式 AI 的使用將導致員工數量減少。然而,圖上也指出在資訊科技和產品開發部門,更多受訪者預期生成式 AI 的使用反而可能導致員工數量增加。
整體而言,儘管許多人擔心 AI 會取代工作,但根據此調查,大多數受訪者(38%)預計未來三年生成式 AI 的使用對其組織的員工規模影響不大。不過,不同業務部門的預期變化存在顯著差異。

另外,Exhibit 10 的圖表說明了不同產業中,受訪者組織經常使用生成式 AI 的業務部門,並以受訪者百分比來呈現。這個分析讓讀者可以比較不同產業在哪些業務功能中更常採用生成式 AI 技術。
圖表的橫軸列出了不同的業務部門,包括:行銷與銷售、產品及/或服務開發、服務營運、軟體工程、知識管理、人力資源、"風險、法律與合規"、策略與企業財務、供應鏈/庫存管理、製造、資訊科技。
圖表的縱軸則代表不同的產業,包括:科技、先進產業(包括先進電子、航太與國防、汽車與組裝、半導體)、消費品與零售、醫療保健、製藥與醫療產品、專業服務、媒體與電信、金融服務、能源與材料。
每個業務部門在不同的產業中都有一個長條,長條的高度表示該產業中,回報其組織經常在該業務部門使用生成式 AI 的受訪者百分比。
雖然各行各業都開始在行銷與銷售部門使用生成式 AI,但在其他業務部門的使用情況則因產業而異。這點出了生成式 AI 最常被應用的哪幾個業務部門。而企業會根據生成式 AI 在特定業務部門的潛在價值來採用它。在大型企業比小型企業更廣泛地在其組織內部使用生成式 AI。

兩相比較,似乎存在一個矛盾,為什麼在 Exhibit 7 中預期人力會減少較多的部門(例如製造業和供應鏈),在 Exhibit 10 中卻顯示它們對生成式 AI 的使用相對較少?
我猜可能是那些經常使用生成式 AI的部門,在預期人力變化是基於「生成式 AI 的使用」。這表示人力減少的預期可能不僅僅來自於生成式 AI,也可能來自於更廣泛的 AI 和自動化技術。
生成式 AI 在這些部門的應用可能更集中在能直接影響勞動力需求的特定任務上,即使整體使用頻率不高。例如,在製造業,生成式 AI 可能被用於優化生產排程、預測設備故障,或者在供應鏈管理中,用於需求預測和庫存優化。這些應用如果能顯著提高效率,即使不是每天都在使用,也可能導致對人力的需求下降。
不然就是預期與實際使用之間可能存在時間差,這份調查對未來三年員工數量變化的預期,而 Exhibit 10 則是當前「經常使用」生成式 AI 的情況。可能一些企業預計未來將在製造業和供應鏈管理中更廣泛地應用生成式 AI,從而導致人力需求的下降,但目前的經常使用程度還不高。
補充:
與朋友討論後,她認為,預期人力會減少較多的部門(例如製造業和供應鏈),在 Exhibit 10 中卻顯示它們對生成式 AI 的使用相對較少,有可能的原因是,製造業和供應鏈部門確實是自動化技術應用的重點領域,管顧常常預設供應鏈和製造業可以靠自動化或科技投資減少人力,而這些技術的主要目標之一就是取代直接勞動力(direct labor)。例如,工廠中的裝配線工人或倉庫中的搬運工人,這些職位很容易被機器人和自動化系統取代。這解釋了為什麼 Exhibit 7 中這些部門預期人力減少較多,而不一定需要依賴生成式 AI。
總之,可能要理解「經常使用」與「廣泛使用」之間的區別,而文字生成的 AI 應用仍是需求最多。在不同產業和公司規模的差異,以及預期與實際使用之間的因素,看起來,潛在的效率提升和對勞動力結構的影響也正在被企業所預期。
回到語音與視覺虛擬助理裝置的比較,除了兩者反映出生成式 AI 硬體的成熟度,語音裝置因為硬體門檻低、資料處理需求小、且貼近現有工作流程,因此能快速普及,特別適合聚焦在「語音生成文字」的應用場景。而視覺裝置則承載更大的想像空間,但同時也受限於續航、處理能力、隱私與社會接受度等挑戰,短期內難以全面滲透主流市場。語音裝置的滲透,更多是擴展現有用戶習慣;而視覺裝置則需要重新塑造行為模式與社會接受度。簡單來說,不論消費商品或是企業應用,虛擬助理從語音轉文字短期仍然可以期待,之後進化到視覺的多模態理解過程,才會是一場技術、商業模式與用戶行為適應的長期拉鋸。
告訴我你們最期待的 AI 硬體裝置是什麼
2025年04月29日, 11:54AM
2025年04月30日, 07:35AM - 補充預期減少部門與生成AI使用之討論