2024:On-Device AI 發展到哪?

更新於 發佈於 閱讀時間約 6 分鐘
Google launches Gemini, its biggest challenge to OpenAI

Google launches Gemini, its biggest challenge to OpenAI

2024,AI Boom 的第二年,我們總算可以撥開 AI 迷霧,逐一聊聊大型語言模型 (LLM) 的實際應用。

畢竟模型大了幾 B,Benchmark 喊的好聽,如果最後沒辦法成功部署、商業化,那真的是一毛錢都賺不到 XD

那首先,我們就來聊聊 On-Device AI 的發展現況。

---

23 年我們講「LLM in your pocket」時,提了一堆的困難,感覺 LLM in your pocket 還是個夢。

比如說 Memory Wall,終端設備記憶體太小了,如果硬把當時算強、算小的 Model LLaMA-7B 放到手機上,直接就吃掉 14 GB 的記憶體空間。

給個參考點,當代最強 iPhone 15 Pro 也只有 8 GB 的 DRAM。

那既然放 RAM 不可行,能不放到慢一點的儲存晶圓呢?可以,但隨之而來就是「慢」。

就像尖峰時段,用 Copilot GPT-4 一樣,等一個字要等個一兩秒,考驗 User 的耐心和易怒程度。

於是在一切很不明朗,On-Device AI 大家都沒頭緒的狀況下,23 年底我們看到了一點曙光。

Gemini Nano - 谷歌的起手式

首先 Google 在 12 月初,把 Gemini 系列中最小的 Nano,放到 Pixel 8 Pro 了。Pixel 8 Pro 也順勢成為第一個裝上 Gemini Nano 的 Android 手機。

AI-powered phone,裝上 Nano 後,他就多了「智慧選字 (Smart Reply)」、「智慧穩定(Video Boost)」、「去模糊(Unblur)」等功能,直接炫砲起來。

大家可能想,前面才提到模型大到放不下,怎麼一個突然就塞進去了手機?

秘訣就是「Quantization」與「Pruning」。

Quantization 指,用低一點的精準度計算,容許一點誤差。

舉個例子,1.30111199998 = 2.60219。如果算不精準一點,1.301.99 = 2.58。

明顯 2.6 & 2.58 看起來差不多,但你在計算過程中,卻省掉一堆位數,節省一堆空間!這大致就是 Quantization 的簡單例子。

實務上,我們可能用 Linear Mapping 等方法,把訓練好的模型,轉換成低精準度的數字,做成推論(Inference)模型。

另一方面,則是「Pruning」,把那些不重要的參數,拿掉!

現今大部分的語言模型,都有一個很大 Deep Neural Network (深度神經網路)。

像你大腦一樣的神經網路,其實很多 Neuron 節點是不太重要的,拿掉雖會犧牲一點品質,但也能有效降低模型大小。

回到 Gemini Nano,不像多數 Model 都用 16-bit (FP16) 的精準度,Gemini Nano 只有 4-bit 的精準度。

同時,大概只有 1.8 B 或 3.25 B 大。由於精準度較低,大概只會佔裝置 1.7 GB 的大小,放在手機上就變得容易不少!

Apple 想另一邊 - 客制 Data Flow

在 AI 競賽慢慢跑,還在醞釀 Vision Pro 混合實境的 Apple ,在 12 月中發佈了論文 《 LLM in a flash: Efficient Large Language Model Inference with Limited Memory 》,成為 AI 第一響。

簡單的說,它探討的是:既然 DRAM 不夠用,能不能借用慢一點的 Flash Memory,但又不損失性能。

在過去, Flash Memory 通常是隨身碟、記憶卡的儲存晶圓,有 Random Access(隨機存取)快,比 DRAM 單元價格低、容量更大的特性。

同時,如果增加一次讀取的量 (a chunk of size),Flash Memory 就會有更好的 Throughput。

並且,Apple 團隊發現,在 LLM 模型架構中 (Feed-Forward Network, FNN layer) ,有 90% 之高的稀疏性 (Sparsity)。

借助上述特型,Apple 提出一個框架:

  1. 只從 Flash Memory ,搬重要的參數到 DRAM,供計算單元計算 (CPU、GPU)。
  2. 把上下左右、附近的參數合在一起讀,提高 chunk size 。
  3. 用 Sliding Window 的方法,只存最近的 token 在 DRAM ,把最遠的 token 從 DRAM 丟掉。

透過這些技巧,我們可以讓裝置跑比 DRAM 兩倍大的模型,CPU 推論上提高 4 到 5 倍,GPU 則提高 20 到 25 倍。

這篇論文揭露了,就算 Model 不 Quantization、Prune ,我還是可以整個塞進去手機和筆電。

那 On-Device AI 有多重要?

很重要,尤其在算力等於石油的時代,更重要。

從近期 Nvidia 市值超過 Google 巨頭為例,算力的市場價值,已經飆到不可理喻的狀態。但算力代表花錢,越多使用者就花越多錢。

既然 AI 進產品是趨勢,讓 Device 分擔計算能力,分散掉伺服器的計算壓力,正是這些 有賣行動裝置的公司,如 Apple、Google,正努力的方向。

事實上, Federated Learning 已經是 System 領域研究已久的主題,近期學界也逐步聚焦在 LLM、 Transformer-based 的特徵上進行研究。

可預見的未來,我們每個裝置,都有一個 AI 腦。

結語

老實說,我個人蠻期待 Apple 的發展。

幾週前 9to5Mac 揭露 Apple 正增強 Siri 和 Message 的 AI 技能,借助 OpenAI ChatGPT 的 API ,去強化自家 Model 的品質。

看起來 Apple 正在努力、iOS 18 將成為第一個 AI-Powered OS,也希望以後 Siri 真的很強,可以都交給他做任何事了~

旅美工程師,閒談矽谷與北美的各種樣貌。 #矽谷 #工程師生涯 #旅行 #軟體工程 #個人成長 Medium: medium.com/mencher-publication
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
你可能也想看
Google News 追蹤
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 現在我們來看看 Google Gemini (https://gemini.google.com/ to start a dialog) 的能力: 回答如下:
Thumbnail
蘋果跨入生成式AI的時間比對手晚,雖然該公司已開發出小型AI模型,但較複雜或特殊的任務,仍希望交由AI夥伴接手。蘋果軟體負責人Craig Federighi先前表示,該公司希望一開始就提供最優秀選項;ChatGPT是蘋果用戶當今的最佳選擇。他並說,蘋果也想整合Google AI模型「Gemini」
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
即將舉辦的2024 COMPUTEX Forum將聚集全球科技領袖,共同探討生成式 AI 的未來發展,也代表臺灣在全球 AI 產業中的重要地位。文章也特別介紹了GeniAuto_X應用在企業內部(業務及行銷部門)和外部客服的生成式AI對話機器人,有助於臺灣企業與生成式AI的接軌,提升整體運營效率。
Thumbnail
我的 AI -Gemini 無法回答我全部的問題... “我從哪裡來?” “現在發生的事情的品質如何?” AI -Gemini : 我鼓勵你探索自己的答案,並找到讓你感到充實和意義的東西。 AI -Gemini : 我是一個由 Google AI 創建的大型語言模型,在大量文字和程式碼資...
Thumbnail
什麼是 Google Gemini? Gemini 是 Google DeepMind 開發的多模態大型語言模型的尖端家族,繼 LaMDA 和 PaLM 2 之後。它於 2023 年 12 月 6 日宣布,包括 Gemini Ultra、Pro 和 Nano,旨在超越 OpenAI 的 GPT-4
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
Thumbnail
人工智慧(AI)的未來展望 在當今這個科技日新月異的時代,人工智慧(AI)已成為推動創新和進步的重要力量。從自動駕駛汽車到精準醫療,AI的應用範圍不斷擴大,其潛力無限。然而,隨著AI技術的快速發展,我們也必須關注其對社會、經濟和倫理的影響。
Thumbnail
2023年被世人稱做生成式AI世代的元年,各式各樣的AI工具不斷湧現,改變了人們的生活。本文將詳細介紹人工智慧和機器學習的相關知識,以及各種人工智慧和機器學習的實現方法。
Thumbnail
2024年將是人工智能技術加速發展的一年,從演算法突破到應用場景擴大,以及企業角力加劇和法律監管建立等多個方面,都有望實現突破。本文對人工智能在2024年的發展趨勢進行了詳細預測和分析。
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 現在我們來看看 Google Gemini (https://gemini.google.com/ to start a dialog) 的能力: 回答如下:
Thumbnail
蘋果跨入生成式AI的時間比對手晚,雖然該公司已開發出小型AI模型,但較複雜或特殊的任務,仍希望交由AI夥伴接手。蘋果軟體負責人Craig Federighi先前表示,該公司希望一開始就提供最優秀選項;ChatGPT是蘋果用戶當今的最佳選擇。他並說,蘋果也想整合Google AI模型「Gemini」
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
即將舉辦的2024 COMPUTEX Forum將聚集全球科技領袖,共同探討生成式 AI 的未來發展,也代表臺灣在全球 AI 產業中的重要地位。文章也特別介紹了GeniAuto_X應用在企業內部(業務及行銷部門)和外部客服的生成式AI對話機器人,有助於臺灣企業與生成式AI的接軌,提升整體運營效率。
Thumbnail
我的 AI -Gemini 無法回答我全部的問題... “我從哪裡來?” “現在發生的事情的品質如何?” AI -Gemini : 我鼓勵你探索自己的答案,並找到讓你感到充實和意義的東西。 AI -Gemini : 我是一個由 Google AI 創建的大型語言模型,在大量文字和程式碼資...
Thumbnail
什麼是 Google Gemini? Gemini 是 Google DeepMind 開發的多模態大型語言模型的尖端家族,繼 LaMDA 和 PaLM 2 之後。它於 2023 年 12 月 6 日宣布,包括 Gemini Ultra、Pro 和 Nano,旨在超越 OpenAI 的 GPT-4
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
Thumbnail
人工智慧(AI)的未來展望 在當今這個科技日新月異的時代,人工智慧(AI)已成為推動創新和進步的重要力量。從自動駕駛汽車到精準醫療,AI的應用範圍不斷擴大,其潛力無限。然而,隨著AI技術的快速發展,我們也必須關注其對社會、經濟和倫理的影響。
Thumbnail
2023年被世人稱做生成式AI世代的元年,各式各樣的AI工具不斷湧現,改變了人們的生活。本文將詳細介紹人工智慧和機器學習的相關知識,以及各種人工智慧和機器學習的實現方法。
Thumbnail
2024年將是人工智能技術加速發展的一年,從演算法突破到應用場景擴大,以及企業角力加劇和法律監管建立等多個方面,都有望實現突破。本文對人工智能在2024年的發展趨勢進行了詳細預測和分析。