DeepSeek-OCR :如何用「光學內容壓縮」終結 LLM 的長文本處理惡夢?

更新 發佈閱讀 7 分鐘

當我們試圖讓 AI 閱讀一份數百頁的 PDF 財報、法律合約或學術論文時,常會遇到速度緩慢、成本高昂,甚至模型「忘記」前面內容的問題。這背後的根本原因,在於傳統的「文本 Tokenization」機制文字轉換為大量的計算單元,文件越長,負擔越重。

但如果我們不再讓 AI 一個字一個字地「閱讀」文件,而是讓它像人類一樣,用「看」的方式來理解整份文件呢? DeepSeek-AI 團隊於 2025年10月20日發布的開源模型 DeepSeek-OCR,正是朝著這個方向邁出的重要一步,它提出的「光學內容壓縮」概念,可能將從根本上改變 AI 處理文件的方式。

DeepSeek-OCR: Contexts Optical Compression

raw-image

DeepSeek-OCR 懶人包

DeepSeek-OCR 是一個開源視覺語言模型,但它並非一般的光學字元辨識(OCR)工具。它的核心能力在於「光學內容壓縮」(Optical Context Compression)。

簡單來說,它能將充滿文字的文件圖像,轉換為極其高效的視覺 Token。這種做法帶來了幾個驚人的成果:

  • 極致的效率提升:相較於傳統方法,視覺 Token 的使用量減少了高達 20 倍,同時保持了 97% 的辨識準確率。
  • 強大的處理量:在單張 NVIDIA A100 GPU 上,一天就能處理超過 20 萬頁文件。
  • 閃電般的速度:整合了 vLLM 技術後,其處理速度可達每秒約 2500 個 Token。
  • 開源且自由:採用對商業友善的 MIT 授權條款,讓開發者和企業都能自由地應用與客製化。

主要亮點剖析

光學內容壓縮,從根本解決 LLM 的長文本焦慮

傳統 AI 處理文件,是將文字轉換成一個個 token。一份長文件動輒數十萬、甚至數百萬個 token,這不僅大幅增加了運算成本,也挑戰了模型能夠處理的上下文長度極限。

DeepSeek-OCR 則另闢蹊徑。它利用視覺編碼器,將整個文件頁面「看」成一張圖,並將其中的資訊「壓縮」成數量極少的視覺 token。這好比過去我們需要逐字朗讀一本書給 AI 聽,現在則是直接讓 AI 看書頁的掃描檔,它就能迅速掌握重點。這種從「閱讀」到「觀看」的轉變,從根本上繞開了文本 token 數量的限制,為處理文件提供了更高效的解決方案。

企業級的處理效能與開源的自由度

效能是決定一項技術能否在真實商業場景中落地的關鍵。DeepSeek-OCR 所展現的「單 GPU 日處理 20 萬頁文件」的能力,使其具備了成為企業級文件自動化流程核心的潛力。 對於需要處理大量合約、報告、論文或客戶資料的金融、法律和研究機構來說,這意味著能以更低的硬體成本,實現過去難以想像的處理規模。更重要的是,DeepSeek-OCR 採用了 MIT 授權。 這代表任何個人或公司都可以免費使用、修改甚至進行商業化應用,而不用擔心授權費用或法律問題。

不只是讀懂文字,更能理解結構與版面

一份文件的價值,不僅在於文字,還包含其版面、圖表和結構。DeepSeek-OCR 的一個驚喜之處,在於它能解析文件中的圖表,並直接將其重新渲染成 HTML 格式。 這證明了它不僅僅是在辨識字元,更在理解文件的空間佈局與結構性元素。這種能力在實際應用中非常寶貴。例如,它可以自動將一份 PDF 報告轉換為結構化的 Markdown 或網頁格式,完整保留標題、表格和圖表。

將加速 AI 在多個領域的應用落地

檢索增強生成(RAG)是目前讓 LLM 應用企業內部知識的主流技術,DeepSeek-OCR 能讓 RAG 系統的資料預處理成本降低一個數量級,使得用數百萬份內部文件來建構一個企業大腦變得更加可行。未來的 AI 代理人需要能夠自主閱讀和理解大量外部資訊,光學內容壓縮技術讓 Agent 能以極低的成本「消化」網路上的報告、手冊與各式文件,從而做出更明智的決策。對於金融、保險、法律、醫療等高度依賴文件處理的產業,可以基於它來打造客製化的智慧文件審批、資料提取與歸檔系統,大幅提升效率。

TN科技筆記的觀點

DeepSeek-OCR 最具顛覆性的地方,並非單純提升了 OCR 的準確率或速度,而是它提出了一種解決 LLM 核心限制的全新思考方向。值得注意的是,這個方向與 Andrej Karpathy 近期提出的觀點不謀而合(這部分會另外再寫一篇文章分享)。Karpathy 認為,LLM 過於強大的記憶能力反而可能是一種缺陷,因為這會讓模型過度依賴死記硬背,而非真正的歸納與推理。他提出,人類無法輕易記住所有細節,這種「健忘」反而像是一種強大的「正規化」(Regularization),迫使我們學習抓住重點與歸納模式。從這個角度來看,DeepSeek-OCR 的「光學內容壓縮」碰巧是一種對這個想法的實踐方式之一。它刻意放棄了對原始文本 100% 無損的記憶,轉而追求一種更高效率、更具備歸納性的視覺化理解。這就像是強迫模型從「逐字背誦」轉變為「閱讀後寫摘要」,在這個有損壓縮的過程中,模型被迫學習如何辨識文件的核心結構與關鍵資訊,而非僅僅是記住一長串的文字序列。這種「選擇性遺忘」的設計,或許正是讓 AI 從一個只會模仿的「幽靈」,進化成一個更懂歸納與推理的「動物」的關鍵一步,這也是 Karpathy 所強調的未來方向。


支持TN科技筆記,與科技共同前行

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!

以下是我的 threads 也歡迎追蹤、回覆、轉發喔!

>>>>> TN科技筆記(TechNotes)


留言
avatar-img
留言分享你的想法!
avatar-img
TN科技筆記(TechNotes)的沙龍
51會員
164內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/10/20
Anthropic 推出 Claude Haiku 4.5,一款兼具速度、效能與成本效益的 AI 模型。
Thumbnail
2025/10/20
Anthropic 推出 Claude Haiku 4.5,一款兼具速度、效能與成本效益的 AI 模型。
Thumbnail
2025/10/17
解析 Andrej Karpathy 最新開源專案 nanochat。了解如何用僅僅 $100 美金與 4 小時,從零開始訓練一個屬於自己的 ChatGPT-like 語言模型,以及它對 AI 開源社群與開發者的意義。
Thumbnail
2025/10/17
解析 Andrej Karpathy 最新開源專案 nanochat。了解如何用僅僅 $100 美金與 4 小時,從零開始訓練一個屬於自己的 ChatGPT-like 語言模型,以及它對 AI 開源社群與開發者的意義。
Thumbnail
2025/10/15
僅有700萬參數的AI模型TRM,為何能在ARC-AGI等頂級推理難題上超越巨型模型。了解其反覆思考與簡化設計的秘密,以及它對AI擴展法則帶來的挑戰。
2025/10/15
僅有700萬參數的AI模型TRM,為何能在ARC-AGI等頂級推理難題上超越巨型模型。了解其反覆思考與簡化設計的秘密,以及它對AI擴展法則帶來的挑戰。
看更多
你可能也想看
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本文參考TensorFlow官網Deep Convolutional Generative Adversarial Network的程式碼來加以實作說明。 示範如何使用深度卷積生成對抗網路(DCGAN) 生成手寫數位影像。
Thumbnail
本文參考TensorFlow官網Deep Convolutional Generative Adversarial Network的程式碼來加以實作說明。 示範如何使用深度卷積生成對抗網路(DCGAN) 生成手寫數位影像。
Thumbnail
在tesseract-ocr辨識應用中,建議的留白邊框為10pixl,若Label列印的太剛好,沒有任何的邊框時,就會辨識不到文字。 本文將帶大家如何讓圖像增加邊框。 結果圖 示意的比較誇張,我讓邊框增加100pixl,圖片大小原為211*80。
Thumbnail
在tesseract-ocr辨識應用中,建議的留白邊框為10pixl,若Label列印的太剛好,沒有任何的邊框時,就會辨識不到文字。 本文將帶大家如何讓圖像增加邊框。 結果圖 示意的比較誇張,我讓邊框增加100pixl,圖片大小原為211*80。
Thumbnail
呈上篇文章,針對單排的圖像文字增加間隔,但如果文字是雙排呢 [OpenCV][Python]OCR分割及增加間隔[單排文字]
Thumbnail
呈上篇文章,針對單排的圖像文字增加間隔,但如果文字是雙排呢 [OpenCV][Python]OCR分割及增加間隔[單排文字]
Thumbnail
本文將說明如何去辨識出圖片文字​位置及高寬。
Thumbnail
本文將說明如何去辨識出圖片文字​位置及高寬。
Thumbnail
在文字辨識中,適當的增加一文字彼此間的間隔是有幫助於辨識的,原因在大多數OCR引擎在處理字符時會依賴空白區域來區分不同的字符。如果字符之間的間隔過小,OCR引擎可能會將相鄰的字符誤認為一個單一的字符或難以正確切割字符。增加間隔可以幫助OCR引擎更準確地識別和切割每個字符。 本文說明如何增加OCR間
Thumbnail
在文字辨識中,適當的增加一文字彼此間的間隔是有幫助於辨識的,原因在大多數OCR引擎在處理字符時會依賴空白區域來區分不同的字符。如果字符之間的間隔過小,OCR引擎可能會將相鄰的字符誤認為一個單一的字符或難以正確切割字符。增加間隔可以幫助OCR引擎更準確地識別和切割每個字符。 本文說明如何增加OCR間
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News