其實你每天都在用的「多模態 AI」

更新於 發佈於 閱讀時間約 4 分鐘

「手機端多模態 AI 其實已經是進行式,只是我們沒注意到。」

🔍 為什麼我們沒注意到?

因為它潛藏在日常應用中:

  • 用 Google Lens 拍照翻譯文字 → 是影像+語言理解
  • Maps 自動切換你在「步行」「騎車」「開車」模式 → 是位置+動態行為辨識
  • 手機自動提示你「這是你常去的咖啡店嗎?」→ 是地點+語意+行為建模
  • Google Photos 搜尋「去年冬天吃壽司照片」→ 是圖像+時間+地點+語意多模態融合
  • YouTube Shorts 自動加字幕、翻譯語音 → 是聲音+語言+影像理解

這些功能表面上是 UX 體驗優化,但背後全部是多模態 AI 推論系統

手機端多模態 AI 常被包裝在直覺功能中,使用者不覺得「多模態 AI 正在工作」;另外很少產品是被標榜「這是多模態 AI」.


多模態 AI 實作 ≠ 多模態神經網路模型

大部分時候,手機端是透過「各模態各自前處理 → 抽象表示 → 串接到語言模型」這種 模組化的架構,來完成任務。

 而像是 GPT-4o 或 Gemini 這類在雲端伺服器運行的超大型「端到端多模態神經網路」存在的理由與優勢,是這種端到端模型可能在模態間的深層次、細微互動上表現更好

🧠 我們可以這樣想像手機端多模態整個流程:

[感測器層]

GPS、相機、麥克風、加速度計、觸控、語音輸入...

[本地感測模組:模態處理器 / Encoder]

影像 → 圖像嵌入向量
聲音 → 語音轉文字
位置 → 結構化語義地點
動作 → 活動類別或動態變化率

[語意融合層 / 模型接口層]

整合為文字 prompt 或結構化資料

[大語言模型 LLM / Decision Layer]

推論、決策、回應生成

🔍 這種架構的優點在於:

  • 減少運算(本地推論快速)與降低傳輸負擔(只傳「語意向量」)
  • 可在離線或弱網路下使用
  • 隱私保護佳(資料不外送):先做語意抽象化也能更好的做到去識別化等.

🧠 實例:

☕ 你拍了一張照片+問:「這家咖啡店晚上幾點關?」

  • 📸 相機輸入 → 本地模型辨識為「某連鎖品牌咖啡店」
  • 📍 GPS → 本地模型轉成地點語義:「台北市忠孝東路××號」
  • 🧠 這些抽象輸入 → 送進 LLM prompt:

    「我在台北市忠孝東路的星巴克,請問這家晚上幾點關門?」

  • LLM 回應:根據地點與品牌查詢,生成對話式回答。

👉 雖然整個任務看似是「圖像+位置+語言」的多模態問題,實際上是:每個模態被前處理成抽象語意,再由大語言模型統籌處理。

🔴 這也意味著:

手機端的多模態 AI ≠ 多模態神經網路


📌 總結:

要實現行動端(手機)多模態 AI,並不等於在手機端實現巨大複雜的多模態神經網路。

而是讓每個模態處理成為抽象的語意輸入,再交由大語言模型來運算。

這是目前多模態 AI 邁入實際應用與邊緣部署的關鍵。


留言
avatar-img
留言分享你的想法!
avatar-img
《無時效備份沙龍》
3會員
72內容數
混合工程術語與都市情感,有種「我知道這些也許沒用,但還是想保存下來」的情緒。
2025/06/11
Nvidia 遙遙領先是本來就知道的事情,但是直接把市場老三 Intel 給整崩潰-放棄原本說好的「翻盤之作」 Falcon Shores. 市場老二 AMD 的 MI300X / MI325X 對標的是 Nvidia 上一代產品 H100/H200. 就問這樣的 nvidia 怎麼輸?
Thumbnail
2025/06/11
Nvidia 遙遙領先是本來就知道的事情,但是直接把市場老三 Intel 給整崩潰-放棄原本說好的「翻盤之作」 Falcon Shores. 市場老二 AMD 的 MI300X / MI325X 對標的是 Nvidia 上一代產品 H100/H200. 就問這樣的 nvidia 怎麼輸?
Thumbnail
2025/06/11
美國國防科技新創近期展示了其 影片. 乍看像 EMP 魔法,但實際上結合 edge AI 辨識 + 軟體定義的電子戰和模組化設計,採取「Jam/Spoof 」針對通信與導航弱點,並透過戰場回饋快速優化。 並剖析其多模態偵測+AI辨識架構,凸顯軟殺無人機群的戰略優勢與成本效益。
Thumbnail
2025/06/11
美國國防科技新創近期展示了其 影片. 乍看像 EMP 魔法,但實際上結合 edge AI 辨識 + 軟體定義的電子戰和模組化設計,採取「Jam/Spoof 」針對通信與導航弱點,並透過戰場回饋快速優化。 並剖析其多模態偵測+AI辨識架構,凸顯軟殺無人機群的戰略優勢與成本效益。
Thumbnail
2025/06/10
AI 時代來臨,晶片需求全面爆發. 從 NVIDIA 壟斷的數據中心,到自動駕駛、影像監控、各大 CSP 自研 ASIC,再到 Edge AI 在手機跟筆電端等,各種應用場景遍地開花。 本篇分析六大 AI 晶片應用場景,拆解 NVIDIA、Google、特斯拉、高通、各大CSP等玩家的戰略。
2025/06/10
AI 時代來臨,晶片需求全面爆發. 從 NVIDIA 壟斷的數據中心,到自動駕駛、影像監控、各大 CSP 自研 ASIC,再到 Edge AI 在手機跟筆電端等,各種應用場景遍地開花。 本篇分析六大 AI 晶片應用場景,拆解 NVIDIA、Google、特斯拉、高通、各大CSP等玩家的戰略。
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型,並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing,現
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型,並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing,現
Thumbnail
AI生成圖片是一個挑戰性的任務,雖然AI能理解文字需求,但仍無法完全想像心中的理想畫面。使用中文描述AI的生成效果約為5成到6成,而加入擬人化的描述可以讓AI更好地理解需求。無論如何,AI生成圖片仍面臨許多挑戰,需要更多的研究與嘗試。
Thumbnail
AI生成圖片是一個挑戰性的任務,雖然AI能理解文字需求,但仍無法完全想像心中的理想畫面。使用中文描述AI的生成效果約為5成到6成,而加入擬人化的描述可以讓AI更好地理解需求。無論如何,AI生成圖片仍面臨許多挑戰,需要更多的研究與嘗試。
Thumbnail
AI繪圖要廣泛用於商用還有一大段路,還需要依賴人類的經驗判斷、調整,為什麼呢?
Thumbnail
AI繪圖要廣泛用於商用還有一大段路,還需要依賴人類的經驗判斷、調整,為什麼呢?
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 仔細看 AI說書 - 從0開始 - 66 中,Decoder 的 Multi-Head Attention 框框,會發現有一條線空接,其實它是有意義的,之所以空接,是因
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 仔細看 AI說書 - 從0開始 - 66 中,Decoder 的 Multi-Head Attention 框框,會發現有一條線空接,其實它是有意義的,之所以空接,是因
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 52 中,我們已經解析完 Attention 機制如何運作的,以下延伸至 Multi-Head Attention: Head 1
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 52 中,我們已經解析完 Attention 機制如何運作的,以下延伸至 Multi-Head Attention: Head 1
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
很多AI只要輸入相關的鏡頭的關鍵字,視覺畫面會隨著鏡頭移動。 鏡頭與視角的關鍵字: 微觀|Microscopic view 焦點,對焦|Focus 第一人稱|First person perspective 第三人稱|Third person perspective 特寫|Close
Thumbnail
很多AI只要輸入相關的鏡頭的關鍵字,視覺畫面會隨著鏡頭移動。 鏡頭與視角的關鍵字: 微觀|Microscopic view 焦點,對焦|Focus 第一人稱|First person perspective 第三人稱|Third person perspective 特寫|Close
Thumbnail
本文章介紹了最近 AI 技術在翻譯領域的不同應用,包括使用 AI 生成履歷照片和文章標題建議。作者通過實際應用分享了AI技術的優點和適用性,並邀請讀者一起探討 AI 技術在不同領域中的應用。如果您對 AI 技術有興趣,歡迎追蹤本文作者的專題,並分享給你的朋友。
Thumbnail
本文章介紹了最近 AI 技術在翻譯領域的不同應用,包括使用 AI 生成履歷照片和文章標題建議。作者通過實際應用分享了AI技術的優點和適用性,並邀請讀者一起探討 AI 技術在不同領域中的應用。如果您對 AI 技術有興趣,歡迎追蹤本文作者的專題,並分享給你的朋友。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News