90% 的 AI 專案敗在資料這關！你還只會收「表格」？

2025/10/20 更新2025/10/15 發佈閱讀 8 分鐘

資料處理與分析是 AI 專案中的基礎階段，它的主要目標，就是將那些雜亂無章的原始數據（Raw Data）轉化成高品質、適合模型分析的格式，最終從中提取出我們需要的「黃金情報」（有價值的資訊）。而「資料蒐集 (Data Collection)」就是這個宏大工程的第一步，是我們獲取數據的過程。

在我們開始抓資料之前，規劃師要先搞清楚資料本身的「長相」。數據根據其結構特性，可以分成三大類：

Structured Data結構化數據：具有清晰且固定結構的數據，通常以行列（Row and Column）形式儲存。這種格式便於直接進行查詢與分析。簡單來說，它就是... 像 Excel 表格一樣，每個欄位都定義得清清楚楚、整整齊齊的資料！關聯式資料庫 (Relational Databases) 如：MySQL、PostgreSQL；企業的客戶訂單、銷售記錄。
Semi-structured Data半結構化數據數據：帶有一定結構標籤（Tags），但格式非常靈活，無需嚴格遵循固定架構。簡單來說，它就是... 帶有標籤，但資料內容可以隨意伸縮的資料包。JSON (JavaScript Object Notation)、XML (eXtensible Markup Language)、CSV (Comma-Separated Values) 等文件格式。例如，網頁傳輸的 API 回傳資料。
Unstructured Data非結構化數據：無固定結構的數據，需要經過額外的處理和解析才能用於分析。簡單來說，它就是... 雜亂無章、沒有規則的原始媒體或文本。圖片、影像、音訊、電子郵件、文章內容等自由文本。例如，客戶的留言評論、工廠的監控影像。

【知識點深入分析】

MySQL 與 PostgreSQL (結構化數據範例):

技術原理與底層邏輯: 這是關聯式資料庫管理系統（RDBMS），它基於數學集合論的原理，確保資料的完整性（Integrity）和一致性（Consistency）。每一筆數據都必須符合預先定義好的 Schema（架構）。
舉例: 想像你在圖書館借書，每本書都有固定的欄位：書名、作者、ISBN、借閱日期。這是非常嚴格的「戶口名簿」！

JSON 與 XML (半結構化數據範例):

技術原理與底層邏輯: 它們使用標籤或鍵值對（Key-Value Pairs）來組織數據，允許數據在不同層次上嵌套（Nesting）。這種靈活性使得數據交換更為容易，特別是在網路服務（Web Services）中。
舉例: 就像是一份履歷表，雖然內容是自由的文字，但會標註「姓名: XXX」、「工作經驗: XXX」，它有大綱但內容不強制固定。

AI 應用規劃師必須知道，數據從哪裡來？數據蒐集的來源非常廣泛，主要透過以下幾種方法：

原理與應用: 透過 API 調用獲取公開可訪問的數據資源，或者使用網路爬蟲 (Web Scraping) 自動擷取網站的公開數據。 API (Application Programming Interface)：應用程式介面，是一種預先定義好的軟體中介，允許不同的軟體系統之間進行通信和數據交換。
舉例:就像你去速食店點餐，API 就是那個點餐櫃台，你告訴他你要什麼（請求數據），他會給你相對應的餐點（回傳數據）。例如，政府資料開放平臺 API。

網路爬蟲 (Web Scraping):

是一種自動化程序，透過模擬人類瀏覽器行為，從網頁中提取所需的公開資訊。底層邏輯: 爬蟲會發送 HTTP 請求，接收 HTML/CSS/JavaScript 內容，然後解析結構（DOM Tree），抓取特定標籤內的數據。
舉例:你想比較所有電商網站上某一型號手機的即時價格和使用者評論，你就會派出「爬蟲」去抓這些公開資訊。

案例分享：規劃師的決策困境

小陳是 AI 動能的新任產品規劃師。他發現，雖然他們銷售的智慧跑步機收集了大量的結構化數據（使用者跑速、心率、卡路里消耗），但他們完全不知道使用者為什麼會選擇他們的產品，以及他們在社群媒體上對產品的真實評價。

小陳焦慮地對技術經理老王說：「老王啊，我們的數據庫裡只有冷冰冰的數字，我連用戶是不是因為隔壁老李推薦才買的都不知道！市場部急著要我們下一代產品的設計方向，我手上全是自有產品數據，但缺少用戶的真實聲音！」

老王困惑地撓了撓頭：「我們已經有幾百萬條運動記錄了，還不夠嗎？搞那麼多雜亂的文字和評論，AI 怎麼處理？」

規劃師決策點： 小陳必須決定採取哪些數據蒐集方法，來獲取用戶的非結構化數據（評論、社群討論）和第一手數據（購買動機），以指導下一代產品設計。

小陳深吸一口氣，展示了他的規劃：

補足用戶購買動機（第一手數據）：「我們必須知道用戶的動機！我建議市場部立刻執行一次問卷與調查 (Questionnaires and Surveys)。透過線上問卷，我們可以精準問出『你購買 AI 動能跑步機的首要原因是？』，這將是我們設計方向的關鍵輸入。」
掌握即時市場輿情（非結構化數據）：「光靠問卷不夠，我們需要知道人們在網路上主動討論了什麼。我們將使用網路爬蟲 (Web Scraping) 技術，自動抓取三大健身論壇和社群媒體上，關於我們產品和競爭對手的非結構化數據（大量的文字評論）。我們還可以用 API 調用一些公開數據，掌握行業大趨勢。」
驗證競爭情報（外部付費數據）：「同時，為了確保我們的設計方向在整體市場上是合理的，我們需要最新的市場調查數據，這部分我們直接外部付費購買，不需要自己耗費大量資源去做了。」

老王恍然大悟：「原來如此！我們不能只看自家跑步機的數據，還得出去聽聽世界的聲音！這樣我們才能把冷冰冰的數字，變成有溫度、有市場競爭力的產品決策！」