資料處理與分析是 AI 專案中的基礎階段,它的主要目標,就是將那些雜亂無章的原始數據(Raw Data)轉化成高品質、適合模型分析的格式,最終從中提取出我們需要的「黃金情報」(有價值的資訊)。而「資料蒐集 (Data Collection)」就是這個宏大工程的第一步,是我們獲取數據的過程。
1. 知識點拆解:數據結構類型分類
在我們開始抓資料之前,規劃師要先搞清楚資料本身的「長相」。數據根據其結構特性,可以分成三大類:
- Structured Data結構化數據:具有清晰且固定結構的數據,通常以行列(Row and Column)形式儲存。這種格式便於直接進行查詢與分析。簡單來說,它就是... 像 Excel 表格一樣,每個欄位都定義得清清楚楚、整整齊齊的資料!關聯式資料庫 (Relational Databases) 如:MySQL、PostgreSQL;企業的客戶訂單、銷售記錄。
- Semi-structured Data半結構化數據數據:帶有一定結構標籤(Tags),但格式非常靈活,無需嚴格遵循固定架構。簡單來說,它就是... 帶有標籤,但資料內容可以隨意伸縮的資料包。JSON (JavaScript Object Notation)、XML (eXtensible Markup Language)、CSV (Comma-Separated Values) 等文件格式。例如,網頁傳輸的 API 回傳資料。
- Unstructured Data非結構化數據:無固定結構的數據,需要經過額外的處理和解析才能用於分析。簡單來說,它就是... 雜亂無章、沒有規則的原始媒體或文本。圖片、影像、音訊、電子郵件、文章內容等自由文本。例如,客戶的留言評論、工廠的監控影像。
【知識點深入分析】
MySQL 與 PostgreSQL (結構化數據範例):
- 技術原理與底層邏輯: 這是關聯式資料庫管理系統(RDBMS),它基於數學集合論的原理,確保資料的完整性(Integrity)和一致性(Consistency)。每一筆數據都必須符合預先定義好的 Schema(架構)。
- 舉例: 想像你在圖書館借書,每本書都有固定的欄位:書名、作者、ISBN、借閱日期。這是非常嚴格的「戶口名簿」!
JSON 與 XML (半結構化數據範例):
- 技術原理與底層邏輯: 它們使用標籤或鍵值對(Key-Value Pairs)來組織數據,允許數據在不同層次上嵌套(Nesting)。這種靈活性使得數據交換更為容易,特別是在網路服務(Web Services)中。
- 舉例: 就像是一份履歷表,雖然內容是自由的文字,但會標註「姓名: XXX」、「工作經驗: XXX」,它有大綱但內容不強制固定。
2. 知識點拆解:常見數據蒐集方法
AI 應用規劃師必須知道,數據從哪裡來?數據蒐集的來源非常廣泛,主要透過以下幾種方法:
A. 問卷與調查 (Questionnaires and Surveys)
- 這是直接從目標受眾(Target Audience)中蒐集第一手數據的方法。它常用於市場研究、用戶回饋(Feedback)蒐集或行為洞察。
- 舉例:你想知道顧客對新產品的滿意度,最直接的方式就是發問卷。這能精準捕捉目標群體的意見與需求。
B. 自有產品數據 (Proprietary Product Data)
- 數據來自企業所開發或運營的產品或設備。這類數據通常與用戶的互動行為相關。
- 舉例:你的 App 記錄了用戶每天點擊了哪些按鈕、停留了多久。智慧手錶(Smartwatch)記錄了你的心跳和步數。這些都是企業自己的「財產數據」。
C. 外部公開數據蒐集 (External Public Data Collection)
- 原理與應用: 透過 API 調用獲取公開可訪問的數據資源,或者使用網路爬蟲 (Web Scraping) 自動擷取網站的公開數據。 API (Application Programming Interface):應用程式介面,是一種預先定義好的軟體中介,允許不同的軟體系統之間進行通信和數據交換。
- 舉例:就像你去速食店點餐,API 就是那個點餐櫃台,你告訴他你要什麼(請求數據),他會給你相對應的餐點(回傳數據)。例如,政府資料開放平臺 API。
網路爬蟲 (Web Scraping):
- 是一種自動化程序,透過模擬人類瀏覽器行為,從網頁中提取所需的公開資訊。 底層邏輯: 爬蟲會發送 HTTP 請求,接收 HTML/CSS/JavaScript 內容,然後解析結構(DOM Tree),抓取特定標籤內的數據。
- 舉例:你想比較所有電商網站上某一型號手機的即時價格和使用者評論,你就會派出「爬蟲」去抓這些公開資訊。
D. 外部付費數據購買 (External Paid Data Purchase)
- 原理與應用: 與第三方數據提供商合作,購買專業數據集以補充內部數據。
- 舉例: 你的公司需要精準的人口統計數據或詳細的市場調查報告,但自己沒有資源去做。這時就向專業的數據公司購買,快速補足內部數據的不足。
案例分享:規劃師的決策困境
小陳是 AI 動能的新任產品規劃師。他發現,雖然他們銷售的智慧跑步機收集了大量的結構化數據(使用者跑速、心率、卡路里消耗),但他們完全不知道使用者為什麼會選擇他們的產品,以及他們在社群媒體上對產品的真實評價。
小陳焦慮地對技術經理老王說:「老王啊,我們的數據庫裡只有冷冰冰的數字,我連用戶是不是因為隔壁老李推薦才買的都不知道!市場部急著要我們下一代產品的設計方向,我手上全是自有產品數據,但缺少用戶的真實聲音!」
老王困惑地撓了撓頭:「我們已經有幾百萬條運動記錄了,還不夠嗎?搞那麼多雜亂的文字和評論,AI 怎麼處理?」
規劃師決策點: 小陳必須決定採取哪些數據蒐集方法,來獲取用戶的非結構化數據(評論、社群討論)和第一手數據(購買動機),以指導下一代產品設計。
小陳深吸一口氣,展示了他的規劃:
- 補足用戶購買動機(第一手數據): 「我們必須知道用戶的動機!我建議市場部立刻執行一次問卷與調查 (Questionnaires and Surveys)。透過線上問卷,我們可以精準問出『你購買 AI 動能跑步機的首要原因是?』,這將是我們設計方向的關鍵輸入。」
- 掌握即時市場輿情(非結構化數據): 「光靠問卷不夠,我們需要知道人們在網路上主動討論了什麼。我們將使用網路爬蟲 (Web Scraping) 技術,自動抓取三大健身論壇和社群媒體上,關於我們產品和競爭對手的非結構化數據(大量的文字評論)。我們還可以用 API 調用一些公開數據,掌握行業大趨勢。」
- 驗證競爭情報(外部付費數據): 「同時,為了確保我們的設計方向在整體市場上是合理的,我們需要最新的市場調查數據,這部分我們直接外部付費購買,不需要自己耗費大量資源去做了。」
老王恍然大悟:「原來如此!我們不能只看自家跑步機的數據,還得出去聽聽世界的聲音!這樣我們才能把冷冰冰的數字,變成有溫度、有市場競爭力的產品決策!」
總結與連結:
這個案例告訴我們,作為 AI 應用規劃師,你的職責不僅是使用數據,更是要規劃數據的來源與類型。你必須根據業務痛點,靈活地選擇不同的資料蒐集方法,從結構化、半結構化到非結構化數據,全面捕獲情報,才能為後續的 AI 模型訓練和商業決策,打下堅實的基礎!
想瞭解更多,歡迎到我的Youtube頻道,一起用聽的學習:直接看影片










