用 TensorFlow.js COCO-SSD 辨識圖片物件

更新於 2024/06/05發佈於 2024/06/05閱讀時間約 9 分鐘

本篇要解決的問題

幾年前有寫了一篇〈ML5.js 神經網路開發圖像辨識〉，是辨識圖片裡的物件，最近跟朋友設計一個活動，是需要判斷照片中的人數，ML5 有點不夠用，問了 ChatGPT 後，知道了 Tensorflow.js 裡，有一個 COCO-SSD 的模型，官方的說明是「在單一影像中定位及辨識多個物件」，實際用起來後，也真的覺得好用，除了可以把人辨識出來，還可以給在照片上的範圍。

本篇主要參考的來源，是官方說明文件、ChatGPT 的回答。

最後完成的 Demo：

https://letswritetw.github.io/letswrite-coco-ssd

基本使用

官方文件的使用教學很基本，就是我們用 img src 把圖檔放上去後，再用 COCO-SSD 這個模型來進行辨識，程式碼如下：

<script src="https://cdn.jsdelivr.net/npm/@tensorflow/tfjs"> </script>
<script src="https://cdn.jsdelivr.net/npm/@tensorflow-models/coco-ssd"> </script>

<img id="img" src="cat.jpg"/>

<script>
  const img = document.getElementById('img');
  cocoSsd.load().then(model => {
    // detect objects in the image.
    model.detect(img).then(predictions => {
      console.log('Predictions: ', predictions);
    });
  });
</script>

進階用法

這邊 August 因為跟朋友設計的活動，是要讓參加活動的人，自己拍照後上傳，所以不能像官方的範例一樣，直接就能取得圖片。

以下程式碼使用 Vue.js 來實作。

HTML

HTML 的部份，我們放一個上傳檔案的按鈕，跟要在照片上標出辨識範圍的 canvas：

<input
    type="file" ref="photo"
    accept="image/*"
    @change="photoHandler"/>

<canvas id="canvas"></canvas>

accept 限制使用者只能上傳圖片。

ref="photo" 是要在 Vue.js 裡能抓到使用者選擇的 file。

photoHandler 就是稍後要寫在 Vue.js 的 method。

Vue.js / JavaScript

因為 model 載入要時間，如果不想每次都載入，就要把 model 存在 data。

辨識的結果也需要存在 data，才好把結果呈現在畫面上。

data() {
  return {
    result: null,
    modal: null
  }
}

methods 先來處理使用者選擇了圖片檔：

async photoHandler() {
  const file = this.$refs.photo.files[0];
  if (!file) return;

  // 載入 COCO-SSD 模型
  this.model = this.model || await cocoSsd.load();

  const imageElement = document.createElement('img');
  imageElement.src = URL.createObjectURL(file);

  imageElement.onload = async () => {

    this.result = await this.model.detect(imageElement);

    // 在照片上標出範圍
    this.drawBox(imageElement, this.result);

    // 清除暫時創建的圖檔 URL
    URL.revokeObjectURL(imageElement.src);

  };
}

COCO-SSD 辨識的結果，會是一個陣列，像這樣：

[
  {
    "bbox": [
      244.66079431772232,
      405.9116929471493,
      304.8147379755974,
      786.6561211645603
    ],
    "class": "person",
    "score": 0.9971041083335876
  },
  ...
]

bbox 是辨識出的範圍。

class 是辨識結果，score 是信心值，愈接近 1 就愈準。

我們在照片用 COCO-SSD 辨識完後，執行了 drawBox，主要是標出照片裡 COCO-SSD 辨識的物件。

async drawBox(imageElement, predictions) {
  const canvas = document.getElementById('canvas');
  const context = canvas.getContext('2d');

  // 設定畫布大小與圖片一致
  canvas.width = imageElement.width;
  canvas.height = imageElement.height;

  // 畫圖片到畫布上
  context.drawImage(imageElement, 0, 0, canvas.width, canvas.height);

  for (let prediction of predictions) {
    const [x, y, width, height] = prediction.bbox;
    const text = `${prediction.class} (${(prediction.score * 100).toFixed(2)}%)`;

    // 畫框
    context.strokeStyle = 'yellow';
    context.lineWidth = 8;
    context.strokeRect(x, y, width, height);

    // 設定字體樣式
    context.font = '28px Arial';
    context.fillStyle = 'yellow';

    // 量測文字寬度與高度
    const textWidth = context.measureText(text).width;
    const textHeight = 28 * 1.5;
    const padding = 8;

    // 畫白色背景框，包含 padding
    context.fillStyle = 'white';
    context.fillRect(x - padding, y - 20 - textHeight - padding, textWidth + padding * 2, textHeight + padding * 2);

    // 畫文字
    context.fillStyle = 'black'; // 文字顏色
    context.fillText(text, x + padding / 2, y - 10 - textHeight / 2);
  }

}

辨識範例、原始碼

我們來試一下結果，以下圖片是在可商用的素材網 Pixabay 上下載的。

先來辨識一群人：

辨識一群人

接著來辨識動物：

辨識動物

神奇的是，把柯基辨識成 Teddy Bear 了 XD。

最後來辨識物品：

辨識物品

雖然相機、滑鼠、茶杯都沒辨識到，不過還行，免費的就不要求了。

最後再次附上 Demo，也附上 Demo 的原始碼，取用前麻煩多多分享本篇，你的小小舉動，對本站都是大大的鼓勵。

Demo：

https://letswritetw.github.io/letswrite-coco-ssd

原始碼：

https://github.com/letswritetw/letswrite-coco-ssd

留言

留言分享你的想法！

Let's Write 的沙龍

9會員

19內容數

沙龍到底是…做什麼用的勒？

Let's Write 的沙龍的其他內容

2024/08/24

CodiumAI PR-Agent，在 GitLab 上用 AI 來 Code Review

了解如何在 GitLab 中設置和使用 CodiumAI PR-Agent 進行 AI Code Review，自動檢查和改進程式碼。本文提供詳細步驟，包括環境設置、提交必要檔案，以及如何使用 OpenAI API Key 進行配置。

2024/08/24

CodiumAI PR-Agent，在 GitLab 上用 AI 來 Code Review

2024/08/07

免費開源的語音辨識功能：Cloudflare Workers AI + Whisper

了解如何使用 Cloudflare Workers AI 與 Whisper 建立免費開源的語音辨識功能。本文詳細說明註冊步驟、部署流程及程式碼修改，讓你輕鬆將語音轉換成文字。

2024/08/07

免費開源的語音辨識功能：Cloudflare Workers AI + Whisper

了解如何使用 Cloudflare Workers AI 與 Whisper 建立免費開源的語音辨識功能。本文詳細說明註冊步驟、部署流程及程式碼修改，讓你輕鬆將語音轉換成文字。

2024/02/01

MongoDB 學習筆記 – Mac 上用 Docker 安裝 MongoDB Community

詳細解說如何在 Mac 上透過 Docker 安裝 MongoDB 社群版。包括 MongoDB Compass 的安裝與配置，以及 MongoDB Shell 的使用方法，為開發者提供 MongoDB 學習資源。

2024/02/01

MongoDB 學習筆記 – Mac 上用 Docker 安裝 MongoDB Community

詳細解說如何在 Mac 上透過 Docker 安裝 MongoDB 社群版。包括 MongoDB Compass 的安裝與配置，以及 MongoDB Shell 的使用方法，為開發者提供 MongoDB 學習資源。

看更多

你可能也想看

渡狼／DL

蝦皮開箱｜TOMICA 吉伊卡哇烏薩奇兔兔小車

TOMICA第一波推出吉伊卡哇聯名小車車的時候馬上就被搶購一空，一直很扼腕當時沒有趕緊入手。前陣子閒來無事逛蝦皮，突然發現幾家商場都又開始重新上架，價格也都回到正常水準，估計是官方又再補了一批貨，想都沒想就立刻下單！同文也跟大家分享近期蝦皮購物紀錄、好用推薦、蝦皮分潤計畫的聯盟行銷！

#吉伊卡哇#開箱#蝦皮分潤計畫

2025/05/13

渡狼／DL

蝦皮開箱｜TOMICA 吉伊卡哇烏薩奇兔兔小車

#吉伊卡哇#開箱#蝦皮分潤計畫

2025/05/13

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

每年4月、5月都是最多稅要繳的月份，當然大部份的人都是有機會繳到「綜合所得稅」，只是相當相當多人還不知道，原來繳給政府的稅！可以透過一些有活動的銀行信用卡或電子支付來繳，從繳費中賺一點點小確幸！就是賺個１%~2%大家也是很開心的，因為你們把沒回饋變成有回饋，就是用卡的最高境界所得稅線上申報

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

JayRay 的沙龍

【資料分析】python資料處理-特徵工程的使用時機與基礎操作語法彙整

特徵工程是機器學習中的核心技術，通過將原始數據轉換為有意義的特徵，以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程，以幫助讀者有效利用特徵工程來優化機器學習模型表現。

#數據#模型#異常

2024/08/14

JayRay 的沙龍

【資料分析】python資料處理-特徵工程的使用時機與基礎操作語法彙整

#數據#模型#異常

2024/08/14

螃蟹_crab的沙龍

[深度學習]訓練VAE模型用於生成圖片_生成篇

本文將延續上一篇文章，經由訓練好的VAE模型其中的解碼器，來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇輸入產生的隨機雜訊，輸入VAE的解碼器後，生成的圖片

#深度學習#VAE模型#生成圖片

2024/07/25

螃蟹_crab的沙龍

[深度學習]訓練VAE模型用於生成圖片_生成篇

#深度學習#VAE模型#生成圖片

2024/07/25

螃蟹_crab的沙龍

[OpenCV][Python]印出圖像中文字的位置及高寬

本文將說明如何去辨識出圖片文字位置及高寬。

#文字的位置及高寬#OCR#OpenCV

2024/07/24

螃蟹_crab的沙龍

[OpenCV][Python]印出圖像中文字的位置及高寬

本文將說明如何去辨識出圖片文字位置及高寬。

#文字的位置及高寬#OCR#OpenCV

2024/07/24

柴郡貓姍蒂的沙龍

筆記-深度學習模型訓練：利用殘差網路做影像辨識

前言讀了許多理論，是時候實際動手做做看了，以下是我的模型訓練初體驗，有點糟就是了XD。正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,

#深度學習#AI#人工智慧

2024/07/23

柴郡貓姍蒂的沙龍

筆記-深度學習模型訓練：利用殘差網路做影像辨識

#深度學習#AI#人工智慧

2024/07/23

Karen的沙龍

【邁向圖神經網絡GNN】Part1:圖數據的基本元素與應用

GNN發展背景傳統的深度學習模型如在計算機視覺（CV）和自然語言處理（NLP）領域中極為成功，主要是處理結構化數據如影像和文本。這些數據類型通常具有固定且規律的結構，例如影像是由有序的像素點組成。然而，在真實世界中，許多數據是非結構化的，如化合物結構（原子和分子）。這些數據雖然具有一定的規則性，

#數據#結構#社交

2024/07/22

Karen的沙龍

【邁向圖神經網絡GNN】Part1:圖數據的基本元素與應用

#數據#結構#社交

2024/07/22

螃蟹_crab的沙龍

[OpenCV][Python]利用K-means分群來做圖像色彩分析

在影像辨識中，若遇到物件與背景難以分辨的狀況下，先做一下色彩分析，知道了色彩強度階層上的像素數，有助於了解後續需要做什麼處理，比較好分割出辨識物。若想辨識的物件與背景的RGB值過於接近，也比較好說明此狀況，為什麼較難分割出物件。成果呈現第一張圖：左邊為原圖，右邊為分析結果的圖，用其他顏

#OpenCV#Python#圖像色彩分析

2024/07/13

螃蟹_crab的沙龍

[OpenCV][Python]利用K-means分群來做圖像色彩分析

#OpenCV#Python#圖像色彩分析

2024/07/13

Let's Write 的沙龍

用 TensorFlow.js COCO-SSD 辨識圖片物件

學習如何使用 Tensorflow.js 的 COCO-SSD 模型在網頁上進行圖片物件辨識，包括基本使用方法、進階應用及實作範例，輕鬆辨識圖片中的人數和物件。

#tensorflow#cocossd#vue

2024/06/05

Let's Write 的沙龍

用 TensorFlow.js COCO-SSD 辨識圖片物件

學習如何使用 Tensorflow.js 的 COCO-SSD 模型在網頁上進行圖片物件辨識，包括基本使用方法、進階應用及實作範例，輕鬆辨識圖片中的人數和物件。

#tensorflow#cocossd#vue

2024/06/05

dab戴伯的沙龍

卷積神經網路(CNN)在影像辨識中的應用

卷積神經網路（CNN）是一種專門用於影像相關應用的神經網路。本文介紹了CNN在影像辨識中的應用，包括圖片的組成、Receptive Field、Parameter Sharing、以及Pooling等技術。通過本文，讀者將瞭解CNN在影像辨識領域的優勢和運作原理。

2024/05/02

2024/05/02

【Python 軍火庫🧨 - EasyOCR】讓我們對圖片進行文字辨識吧

EasyOCR是一個能夠幫助你對圖片中的文字進行辨識的工具，透過進階分析，可以應用在文件掃描、自動化數據輸入、發票掃描等領域。本章節將介紹如何安裝、引用模型、進行文字辨識、以及辨識結果的分析。透過學習，你可以建立屬於自己的文字辨識系統。

#模型#GPU#文章

2024/02/20

阿Han的沙龍

【Python 軍火庫🧨 - EasyOCR】讓我們對圖片進行文字辨識吧

#模型#GPU#文章

2024/02/20

AI繪圖 18+/R 實驗室

TensorArt 模型推薦 - 真實模型

本篇文章參考 Youtube 影片(...真實模型推薦...)內容，為大家找出影片中的模型，直接作圖測試，您直接連結過去，就可以在 TensorArt 內直接使用囉!

#AI繪圖#AI繪圖研究日誌#TensorArt

2024/01/28

AI繪圖 18+/R 實驗室

TensorArt 模型推薦 - 真實模型

本篇文章參考 Youtube 影片(...真實模型推薦...)內容，為大家找出影片中的模型，直接作圖測試，您直接連結過去，就可以在 TensorArt 內直接使用囉!

#AI繪圖#AI繪圖研究日誌#TensorArt

2024/01/28

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News