現在要聚焦在「人工智慧基礎概論」中,比機器學習更基礎、更關鍵的環節——資料處理與分析概念!如果說機器學習是AI的強大引擎,那麼數據(資料)就是這個引擎賴以運轉的高品質燃料!
在整個AI應用規劃的流程中,一切的起點都來自於數據蒐集(Data Collection)。模型再厲害,如果餵給它的是「髒數據」或「不完整的數據」,最終的結果肯定會大打折扣!
🔍 AI的起點:一網打盡數據蒐集的三大結構與五大管道!
📚 數據蒐集:從原理到應用
1. 什麼是數據蒐集?(底層邏輯拆解)
數據蒐集是「資料(數據)處理與分析」階段的第一步,也是最基礎的階段。原理: 數據蒐集旨在將原始數據轉化為高品質且適合分析的格式。它就像是你在蓋一棟AI智慧大樓之前,必須先進行「備料」的過程。
目標: 確保數據的品質、一致性與可用性,進一步從中提取有價值的資訊。
白話比喻:備料做大餐 數據蒐集就像是廚師在做一道大餐前,先跑到市場和超市去「蒐集食材」。你必須知道你要找的食材(數據)是屬於哪種形式(結構),並選擇最好的管道(方法)獲取它。如果食材不好,後續的料理(模型訓練)就難以成功。
簡單來說,它就是... 確保AI模型有足夠且優質的「食物」來學習的第一道關卡!
2. 數據結構類型分類:數據的三種樣貌
數據的來源廣泛,根據數據本身的結構化程度與應用需求,可分為三大類:

記憶連結:
- 結構化:最整齊、像Excel表格,可以直接算。
- 半結構化:有點像包裹,外面貼了標籤(JSON標籤),但裡面內容格式不固定。
- 非結構化:最混亂,像照片和文章,電腦要「看懂」需要先解析。
3. 常見數據蒐集方法:五大實務管道
在實際的AI應用專案中,AI應用規劃師需要根據業務需求,選擇最合適的數據蒐集途徑:
- 問卷與調查 (Questionnaires and Surveys): 目的: 直接從目標受眾中蒐集第一手數據。 應用: 用於市場研究、用戶回饋(反饋)蒐集或行為洞察,精準捕捉目標群體的意見與需求。
- 自有產品數據 (Proprietary Product Data): 目的: 來自企業所開發或運營的產品或設備數據。 應用: 通常與用戶的互動相關,例如自有網站、App應用、或實體裝置如智慧手錶、汽車等。
- 外部公開數據蒐集 (External Public Data Collection): 目的: 透過公開途徑獲取數據資源。 方法: 透過 API調用(如政府資料開放平臺 API),或利用 網路爬蟲 (Web Scraping) 自動擷取網站公開數據。
- 外部付費數據購買 (External Paid Data Purchasing): 目的: 與第三方數據提供商合作,購買專業數據集以補充內部數據。 應用: 例如市場調查數據或人口統計數據。
- 網路爬蟲 (Web Scraping): 目的: 抓取網站公開數據。 應用: 例如商品價格、使用者評論或新聞文章等。
白話講,它的作用就像是... 打造一個數據的「多功能吸塵器」,確保我們能從不同角落吸取所有必需的高品質資訊!
💼 情境案例應用:新產品的數據需求
假設你的公司正在開發一款智慧健身追蹤器,需要預測用戶的流失風險並提供個人化建議。你作為AI規劃師,需要向工程團隊解釋如何進行數據蒐集:
- 工程師 (困惑地問): 「我們已經開始蒐集手錶的運動數據了,但這些數據就夠了嗎?我們怎麼知道用戶為什麼會停用我們的產品?」
- AI規劃師 (你,專業地回答): 「光有設備數據不夠,我們需要多模態、多管道的數據來訓練模型。我們的數據蒐集計畫如下:」
- 自有產品數據(核心結構化數據): 「這是我們手錶App產生的結構化數據,包括步數、心率、睡眠時間等,這是訓練基礎迴歸模型的關鍵。」
- 問卷與調查(第一手回饋): 「我們需要定期對流失用戶進行問卷調查,蒐集他們停用產品的原因和建議。這些是第一手數據,能幫助我們理解『使用者意圖』,這是非結構化文本。」
- 網路爬蟲(市場趨勢): 「我們讓網路爬蟲自動擷取競爭對手產品的公開使用者評論和價格資訊,這些是半結構化或非結構化數據。這能幫我們了解市場趨勢和潛在的價格敏感度。」
「總結來說,我們不只蒐集設備的結構化行為數據,還要透過問卷和爬蟲補足用戶的非結構化意圖和市場數據。只有全面且高品質的數據,才能讓我們的流失預測模型準確度達標!」















