
好像還在4、5年前的時候,我們利用網路搜尋功能,搜尋資訊時多數還是以文字搜尋為主,很多時候如果我們對圖像資訊有疑問,通常我們接收資料後,必須在腦中轉化成文字內容再於瀏覽器的搜尋欄位輸出成文字。現在使用AI進行以圖搜尋的功能越來越普及了,如果能善加利用,肯定能夠增加工作上的效率!
OCR指的是Optical Character Recognition,是一項讓電腦能夠「讀懂」圖像中的文字,並將其轉換為可編輯、可搜尋的數位文字格式的技術,最普遍應用於日常生活中的情境應該就是停車場的車牌辨識系統,攝影機拍攝車牌內容後再上傳至系統進行文字辨識,建立停車資訊;另外像是申請金融服務時,部分應用程式也可以透過拍攝身分證卡面,經過系統辨識後,將很多繁瑣的內容自動填入欄位,減少不少的作業時間。
目前各家的大型語言模型,多數都已經有OCR的能力了,從最簡單的辨識文字,一直到菜單、海報甚至是單純的影像,都能夠將內容資訊進行蒐集,再依照我們的需求指令搜索資訊,而目前OCR的能力也已經再延伸到將辨識的內容應用於圖片生成(相關的應用在之前圖片生成功能的文章也有帶到)、影片生成的功能,發展速度之快。

如果你是行政人員,免不了就是會有一些紙本文件,有時候要將內容建立成電子檔時,傳統手key會讓人發狂,現在可以拍個照上傳到語言模型,請他進行內容的全文輸出或是摘要。如果你是正在看原文書的同學,閱讀英文如果太過吃力,同樣也可以透過這種方式進行內容翻譯。如果你像我一樣是在學習AI應用的人,電腦操作時遇到不懂的內容也可以截圖下來,讓AI為你進行問題的分析與解說。
實在是有太多應用與發揮的場合了,以前遇到問題除了一開始要釐清問題,將關鍵字精準在google中搜尋,還要再將搜尋好的內容作整理以及分類,挑出合適自己問題的解答。現在的語言模型提供的內容幾乎等於一站式服務中心,就只要截圖上傳問問題就好,甚至不精準的問題AI還會另外進行詢問,還有可能幫你抓出其他有問題的內容。這麼好用的功能,如果還沒有使用過,推薦一定要試試看。




















