OCR 圖像識別測試

2025/08/12 更新2025/08/12 發佈閱讀 3 分鐘

OCR，全名為光學字元辨識（Optical Character Recognition），是一種將圖像中的文字轉換為可編輯的數位文字的技術。實際上現在在實用上已經非常普遍，如停車場的車牌識別等等。

「bot.學習.人」有時因為出差常跑國外，對於韓文日文和泰文，可是不懂又不懂，想想能不能利用自己的專長，做一個拍照識別的bot 呢？在網路上尋找了一下，發現 OCR Space 還蠻好用的，實測了一次也很容易，準確度也高，不過免費的似乎有點限制，至少沒有一些東南亞語言，所以就放棄了。

後來問了Gemini AI, 才知道Google 本身也有提供OCR, 只是檔案要先存在Google drive 裏。用app script 寫了函數如下：

function ocrFromGoogleDrive(fileId) {
  // 1. 使用 DriveApp 服務取得檔案物件
  var file = DriveApp.getFileById(fileId);
  file.setSharing(DriveApp.Access.ANYONE_WITH_LINK, DriveApp.Permission.VIEW);
  // 2. 準備要傳給 API 的資源物件
  var resource = {
    title: file.getName()
  };
  // 3. 透過 Drive API Advanced Service 執行 OCR讓 Google 自動偵測語言
  var newFile = Drive.Files.insert(resource, file.getBlob(), {
    ocr: true
  });
  // 4. 開啟轉換後的 Google 文件，讀取文字
  var doc = DocumentApp.openById(newFile.id);
  var text = doc.getBody().getText();
  // 5. 處理完畢後，刪除暫時產生的 Google Doc 檔案
  Drive.Files.remove(newFile.id);
  return text;
}

如此，提供在Google drive裏的file id 給函數，就會回傳圖片上的文字了。「bot.學習.人」親試了一下，對韓文、日文、泰文翻譯的還可以哦。

留言

bot.學習.人的沙龍

3會員

55內容數

bot.學習.人的沙龍的其他內容

2025/07/27

介紹一下自家作的telegram 機器人

先提供機器人的連結「bot.學習.人」作為一位經驗豐富的telegram使用者及機器人開發者，發現在telegram的社群中，充斥著各種資訊，有時難免會出現不雅言論、詐騙訊息，甚至有心人士利用改名來偽裝群組的知名人士在私下詐騙。為了解決這些問題，「bot.學習.人」設計並開發了這款機器人，它

2025/07/27

介紹一下自家作的telegram 機器人

2025/07/22

好用的新聞API

GNEWS API 是一個很不錯的新聞API，內有提供免費的額度，每天100個request，已經很夠「bot.學習.人」自己使用。裏面也有不少的台灣新聞，[bot.學習.人」最早使用它的原因，是因為平常有在看上市公司的新聞，想說是不是可以用新聞api 捕捉到一些新聞，但是一直沒找到好的api，

2025/07/22

好用的新聞API

2025/07/11

telegram 群組搜尋工具分享

「bot.學習.人」上網尋找了telegram 群組搜尋的幾個工具，介紹給大家：

2025/07/11

telegram 群組搜尋工具分享

「bot.學習.人」上網尋找了telegram 群組搜尋的幾個工具，介紹給大家：

看更多

你可能也想看

陳星晴老師-教育斜棟人生

[附教案及教學影片]運用AI 生成圖片功能，學習描寫文寫作

在學習描寫文的過程中，將思維視覺化是一個重要的教學策略。通過使用AI生成圖片功能，教師能夠幫助學生將抽象的描述轉化為具體的圖像。

#AI#人工智能#人工智慧

2024/04/23

陳星晴老師-教育斜棟人生

[附教案及教學影片]運用AI 生成圖片功能，學習描寫文寫作

在學習描寫文的過程中，將思維視覺化是一個重要的教學策略。通過使用AI生成圖片功能，教師能夠幫助學生將抽象的描述轉化為具體的圖像。

#AI#人工智能#人工智慧

2024/04/23

是我啦，我好學啦

AI可以讓你的作品變更好看嗎？答案是「有困難」

AI繪圖要廣泛用於商用還有一大段路，還需要依賴人類的經驗判斷、調整，為什麼呢？

#AI繪圖#midjourney繪圖#AI套現

2024/07/24

是我啦，我好學啦

AI可以讓你的作品變更好看嗎？答案是「有困難」

AI繪圖要廣泛用於商用還有一大段路，還需要依賴人類的經驗判斷、調整，為什麼呢？

#AI繪圖#midjourney繪圖#AI套現

2024/07/24

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

《轉轉生》（Re:INCARNATION）為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，結合拉各斯街頭節奏、Afrobeat／Afrobeats、以及約魯巴宇宙觀的非線性時間，建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發，解析其去殖民的身體政治。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

螃蟹_crab的沙龍

影像辨識流程介紹

針對辨識物的不同，流程就會不一樣，在依照現實狀況進行刪減，以下說明為個人常用的流程。基本流程：讀圖灰階濾波 (看圖片雜訊多不多) 二值化連通區域特徵篩選特徵資訊辨識 - (OCR，量測，瑕疵檢測等。) 名詞介紹 Gray 灰階將原始的彩色圖像轉換為灰階圖

2024/04/19

2024/04/19

　　在 AI 應用中，圖像、語音、文字三種可以說是主要應用，其中我一直以來都是專注於圖像上的研究，對於另兩種僅止於淺嚐，接下來就往音訊上研究看看，先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用，那麼，就讓我們開始吧。

2024/05/24

2024/05/24

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》，由臺灣劇團「晃晃跨幅町」製作，本文將以從舞台符號、聲音與表演調度切入，討論海妲・蓋柏樂在父權社會結構下的困境，並結合榮格心理學與馮．法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析，理解女人何以走向精神性的操控、毀滅與死亡。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11