當我們試圖讓 AI 閱讀一份數百頁的 PDF 財報、法律合約或學術論文時,常會遇到速度緩慢、成本高昂,甚至模型「忘記」前面內容的問題。這背後的根本原因,在於傳統的「文本 Tokenization」機制文字轉換為大量的計算單元,文件越長,負擔越重。
但如果我們不再讓 AI 一個字一個字地「閱讀」文件,而是讓它像人類一樣,用「看」的方式來理解整份文件呢? DeepSeek-AI 團隊於 2025年10月20日發布的開源模型 DeepSeek-OCR,正是朝著這個方向邁出的重要一步,它提出的「光學內容壓縮」概念,可能將從根本上改變 AI 處理文件的方式。
DeepSeek-OCR: Contexts Optical Compression
DeepSeek-OCR 懶人包
DeepSeek-OCR 是一個開源視覺語言模型,但它並非一般的光學字元辨識(OCR)工具。它的核心能力在於「光學內容壓縮」(Optical Context Compression)。
簡單來說,它能將充滿文字的文件圖像,轉換為極其高效的視覺 Token。這種做法帶來了幾個驚人的成果:
- 極致的效率提升:相較於傳統方法,視覺 Token 的使用量減少了高達 20 倍,同時保持了 97% 的辨識準確率。
- 強大的處理量:在單張 NVIDIA A100 GPU 上,一天就能處理超過 20 萬頁文件。
- 閃電般的速度:整合了 vLLM 技術後,其處理速度可達每秒約 2500 個 Token。
- 開源且自由:採用對商業友善的 MIT 授權條款,讓開發者和企業都能自由地應用與客製化。
主要亮點剖析
光學內容壓縮,從根本解決 LLM 的長文本焦慮
傳統 AI 處理文件,是將文字轉換成一個個 token。一份長文件動輒數十萬、甚至數百萬個 token,這不僅大幅增加了運算成本,也挑戰了模型能夠處理的上下文長度極限。
DeepSeek-OCR 則另闢蹊徑。它利用視覺編碼器,將整個文件頁面「看」成一張圖,並將其中的資訊「壓縮」成數量極少的視覺 token。這好比過去我們需要逐字朗讀一本書給 AI 聽,現在則是直接讓 AI 看書頁的掃描檔,它就能迅速掌握重點。這種從「閱讀」到「觀看」的轉變,從根本上繞開了文本 token 數量的限制,為處理文件提供了更高效的解決方案。
企業級的處理效能與開源的自由度
效能是決定一項技術能否在真實商業場景中落地的關鍵。DeepSeek-OCR 所展現的「單 GPU 日處理 20 萬頁文件」的能力,使其具備了成為企業級文件自動化流程核心的潛力。 對於需要處理大量合約、報告、論文或客戶資料的金融、法律和研究機構來說,這意味著能以更低的硬體成本,實現過去難以想像的處理規模。更重要的是,DeepSeek-OCR 採用了 MIT 授權。 這代表任何個人或公司都可以免費使用、修改甚至進行商業化應用,而不用擔心授權費用或法律問題。
不只是讀懂文字,更能理解結構與版面
一份文件的價值,不僅在於文字,還包含其版面、圖表和結構。DeepSeek-OCR 的一個驚喜之處,在於它能解析文件中的圖表,並直接將其重新渲染成 HTML 格式。 這證明了它不僅僅是在辨識字元,更在理解文件的空間佈局與結構性元素。這種能力在實際應用中非常寶貴。例如,它可以自動將一份 PDF 報告轉換為結構化的 Markdown 或網頁格式,完整保留標題、表格和圖表。
將加速 AI 在多個領域的應用落地
檢索增強生成(RAG)是目前讓 LLM 應用企業內部知識的主流技術,DeepSeek-OCR 能讓 RAG 系統的資料預處理成本降低一個數量級,使得用數百萬份內部文件來建構一個企業大腦變得更加可行。未來的 AI 代理人需要能夠自主閱讀和理解大量外部資訊,光學內容壓縮技術讓 Agent 能以極低的成本「消化」網路上的報告、手冊與各式文件,從而做出更明智的決策。對於金融、保險、法律、醫療等高度依賴文件處理的產業,可以基於它來打造客製化的智慧文件審批、資料提取與歸檔系統,大幅提升效率。
TN科技筆記的觀點
DeepSeek-OCR 最具顛覆性的地方,並非單純提升了 OCR 的準確率或速度,而是它提出了一種解決 LLM 核心限制的全新思考方向。值得注意的是,這個方向與 Andrej Karpathy 近期提出的觀點不謀而合(這部分會另外再寫一篇文章分享)。Karpathy 認為,LLM 過於強大的記憶能力反而可能是一種缺陷,因為這會讓模型過度依賴死記硬背,而非真正的歸納與推理。他提出,人類無法輕易記住所有細節,這種「健忘」反而像是一種強大的「正規化」(Regularization),迫使我們學習抓住重點與歸納模式。從這個角度來看,DeepSeek-OCR 的「光學內容壓縮」碰巧是一種對這個想法的實踐方式之一。它刻意放棄了對原始文本 100% 無損的記憶,轉而追求一種更高效率、更具備歸納性的視覺化理解。這就像是強迫模型從「逐字背誦」轉變為「閱讀後寫摘要」,在這個有損壓縮的過程中,模型被迫學習如何辨識文件的核心結構與關鍵資訊,而非僅僅是記住一長串的文字序列。這種「選擇性遺忘」的設計,或許正是讓 AI 從一個只會模仿的「幽靈」,進化成一個更懂歸納與推理的「動物」的關鍵一步,這也是 Karpathy 所強調的未來方向。
支持TN科技筆記,與科技共同前行
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡
在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!
以下是我的 threads 也歡迎追蹤、回覆、轉發喔!
>>>>> TN科技筆記(TechNotes)
















