【資料處理與分析概念】一圖秒懂資料差異,為你的AI專案奠定堅實基礎!

更新 發佈閱讀 5 分鐘

現在要聚焦在「人工智慧基礎概論」中,比機器學習更基礎、更關鍵的環節——資料處理與分析概念!如果說機器學習是AI的強大引擎,那麼數據(資料)就是這個引擎賴以運轉的高品質燃料

在整個AI應用規劃的流程中,一切的起點都來自於數據蒐集(Data Collection)。模型再厲害,如果餵給它的是「髒數據」或「不完整的數據」,最終的結果肯定會大打折扣!


🔍 AI的起點:一網打盡數據蒐集的三大結構與五大管道!

📚 數據蒐集:從原理到應用

1. 什麼是數據蒐集?(底層邏輯拆解)

數據蒐集是「資料(數據)處理與分析」階段的第一步,也是最基礎的階段。

原理: 數據蒐集旨在將原始數據轉化為高品質適合分析的格式。它就像是你在蓋一棟AI智慧大樓之前,必須先進行「備料」的過程。

目標: 確保數據的品質、一致性可用性,進一步從中提取有價值的資訊。

白話比喻:備料做大餐 數據蒐集就像是廚師在做一道大餐前,先跑到市場和超市去「蒐集食材」。你必須知道你要找的食材(數據)是屬於哪種形式(結構),並選擇最好的管道(方法)獲取它。如果食材不好,後續的料理(模型訓練)就難以成功。

簡單來說,它就是... 確保AI模型有足夠且優質的「食物」來學習的第一道關卡!

2. 數據結構類型分類:數據的三種樣貌

數據的來源廣泛,根據數據本身的結構化程度與應用需求,可分為三大類:

raw-image

記憶連結:

  • 結構化:最整齊、像Excel表格,可以直接算。
  • 半結構化:有點像包裹,外面貼了標籤(JSON標籤),但裡面內容格式不固定。
  • 非結構化:最混亂,像照片和文章,電腦要「看懂」需要先解析。

3. 常見數據蒐集方法:五大實務管道

在實際的AI應用專案中,AI應用規劃師需要根據業務需求,選擇最合適的數據蒐集途徑:

  1. 問卷與調查 (Questionnaires and Surveys): 目的: 直接從目標受眾中蒐集第一手數據。 應用: 用於市場研究、用戶回饋(反饋)蒐集或行為洞察,精準捕捉目標群體的意見與需求。
  2. 自有產品數據 (Proprietary Product Data): 目的: 來自企業所開發或運營的產品或設備數據。 應用: 通常與用戶的互動相關,例如自有網站、App應用、或實體裝置如智慧手錶、汽車等。
  3. 外部公開數據蒐集 (External Public Data Collection): 目的: 透過公開途徑獲取數據資源。 方法: 透過 API調用(如政府資料開放平臺 API),或利用 網路爬蟲 (Web Scraping) 自動擷取網站公開數據。
  4. 外部付費數據購買 (External Paid Data Purchasing): 目的: 與第三方數據提供商合作,購買專業數據集以補充內部數據。 應用: 例如市場調查數據或人口統計數據。
  5. 網路爬蟲 (Web Scraping): 目的: 抓取網站公開數據。 應用: 例如商品價格、使用者評論或新聞文章等。

白話講,它的作用就像是... 打造一個數據的「多功能吸塵器」,確保我們能從不同角落吸取所有必需的高品質資訊!


💼 情境案例應用:新產品的數據需求

假設你的公司正在開發一款智慧健身追蹤器,需要預測用戶的流失風險並提供個人化建議。你作為AI規劃師,需要向工程團隊解釋如何進行數據蒐集:

  • 工程師 (困惑地問): 「我們已經開始蒐集手錶的運動數據了,但這些數據就夠了嗎?我們怎麼知道用戶為什麼會停用我們的產品?」
  • AI規劃師 (你,專業地回答): 「光有設備數據不夠,我們需要多模態、多管道的數據來訓練模型。我們的數據蒐集計畫如下:」
  1. 自有產品數據(核心結構化數據): 「這是我們手錶App產生的結構化數據,包括步數、心率、睡眠時間等,這是訓練基礎迴歸模型的關鍵。」
  2. 問卷與調查(第一手回饋): 「我們需要定期對流失用戶進行問卷調查,蒐集他們停用產品的原因和建議。這些是第一手數據,能幫助我們理解『使用者意圖』,這是非結構化文本。」
  3. 網路爬蟲(市場趨勢): 「我們讓網路爬蟲自動擷取競爭對手產品的公開使用者評論和價格資訊,這些是半結構化或非結構化數據。這能幫我們了解市場趨勢和潛在的價格敏感度。」

「總結來說,我們不只蒐集設備的結構化行為數據,還要透過問卷和爬蟲補足用戶的非結構化意圖和市場數據。只有全面且高品質的數據,才能讓我們的流失預測模型準確度達標!」

留言
avatar-img
留言分享你的想法!
avatar-img
iPAS AI 自學路
13會員
57內容數
我是一位正在追求職涯升級的 40 歲非本科系上班族。我會將自己摸索出的高效白話筆記與聽覺學習法無私分享,助你:克服術語障礙、利用零碎時間學習、系統化整理考點。 也歡迎到我的頻道逛逛https://www.youtube.com/@ipasstudybuddy
iPAS AI 自學路的其他內容
2025/10/30
MLOps 的全名是 Machine Learning Operations,你可以把它想像成是 AI 領域的「自動化生產線與維護團隊」。
2025/10/30
MLOps 的全名是 Machine Learning Operations,你可以把它想像成是 AI 領域的「自動化生產線與維護團隊」。
2025/10/27
今天我們要來深入學習在機器學習建模前,如何對數據進行「整形手術」的幾個關鍵技術:標籤編碼、目標編碼,以及分箱! 這些技術都屬於特徵轉換的範疇,目的是將原始數據(特別是文字或連續數值)轉換成模型能理解、能計算的格式,從而提高模型的學習效率與預測性能。
2025/10/27
今天我們要來深入學習在機器學習建模前,如何對數據進行「整形手術」的幾個關鍵技術:標籤編碼、目標編碼,以及分箱! 這些技術都屬於特徵轉換的範疇,目的是將原始數據(特別是文字或連續數值)轉換成模型能理解、能計算的格式,從而提高模型的學習效率與預測性能。
2025/10/21
從模仿人腦到預測未來,帶你掌握 AI 的底層邏輯與實際應用場景。 AI 不再只是科技名詞,而是一套能「思考、學習、決策」的系統。 本文將帶你拆解人工智慧的核心概念、三大功能分類與實際落地案例,讓你真正理解 AI 為什麼能改變世界。
2025/10/21
從模仿人腦到預測未來,帶你掌握 AI 的底層邏輯與實際應用場景。 AI 不再只是科技名詞,而是一套能「思考、學習、決策」的系統。 本文將帶你拆解人工智慧的核心概念、三大功能分類與實際落地案例,讓你真正理解 AI 為什麼能改變世界。
看更多
你可能也想看
Thumbnail
嗨~我是夢夢 ♡ 每年到這個時候,我都會默默開始列購物清單 畢竟「蝦皮雙11」真的太好買啦 🛒✨ 這次就想跟大家分享幾樣我自己平常有在用、也準備趁雙11補貨的好物, 順便聊聊我最近開始玩的「蝦皮分潤計畫」,怎麼讓分享變成小小被動收入 💰
Thumbnail
嗨~我是夢夢 ♡ 每年到這個時候,我都會默默開始列購物清單 畢竟「蝦皮雙11」真的太好買啦 🛒✨ 這次就想跟大家分享幾樣我自己平常有在用、也準備趁雙11補貨的好物, 順便聊聊我最近開始玩的「蝦皮分潤計畫」,怎麼讓分享變成小小被動收入 💰
Thumbnail
分享如何透過蝦皮解決毛孩(多芬)因換季和食物引發的皮膚過敏問題,從選用單一蛋白質的火雞肉主食,到利用寵物防舔衣舒緩傷口,並結合蝦皮雙11購物節的優惠資訊與蝦皮分潤計畫的實用教學。
Thumbnail
分享如何透過蝦皮解決毛孩(多芬)因換季和食物引發的皮膚過敏問題,從選用單一蛋白質的火雞肉主食,到利用寵物防舔衣舒緩傷口,並結合蝦皮雙11購物節的優惠資訊與蝦皮分潤計畫的實用教學。
Thumbnail
這次,我重新走進考場後,心情很複雜 第三屆的錄取率降到45.09%,我感受到題目在變難。所以這次,我特地報名重考,想親身體會學員們面對的挑戰。 但考完第四屆,當我走出考場的那一刻,很多疑問和不安在心中翻攪。我不禁想問: 這還是當初那個「初級」應用規劃師嗎?
Thumbnail
這次,我重新走進考場後,心情很複雜 第三屆的錄取率降到45.09%,我感受到題目在變難。所以這次,我特地報名重考,想親身體會學員們面對的挑戰。 但考完第四屆,當我走出考場的那一刻,很多疑問和不安在心中翻攪。我不禁想問: 這還是當初那個「初級」應用規劃師嗎?
Thumbnail
我開始把 AI 從「助理」轉為「顧問」的關鍵點,是我開始意識到,對於我不熟悉的領域,我不應該去指導 AI 怎麼教我,而是讓 AI 自己去想最好的教學方式。所以,我就直接對 AI 說:「你說說看啊,你覺得怎樣教一個小白學習比較好?目的是要讓我通過初級考試 。」
Thumbnail
我開始把 AI 從「助理」轉為「顧問」的關鍵點,是我開始意識到,對於我不熟悉的領域,我不應該去指導 AI 怎麼教我,而是讓 AI 自己去想最好的教學方式。所以,我就直接對 AI 說:「你說說看啊,你覺得怎樣教一個小白學習比較好?目的是要讓我通過初級考試 。」
Thumbnail
我其實是個很抗拒考試的人,以前學生時代最討厭硬背,但我很喜歡嘗試各種數位工具。這次我靈機一動,既然要考「AI 應用規劃」,那我為何不應用 AI 來規劃我的整個備考過程呢?以下就是我,如何用 AI 學習新領域、完整備考流程、實戰心法,以及提示詞(Prompt)的操作細節,原汁原味全部公開。
Thumbnail
我其實是個很抗拒考試的人,以前學生時代最討厭硬背,但我很喜歡嘗試各種數位工具。這次我靈機一動,既然要考「AI 應用規劃」,那我為何不應用 AI 來規劃我的整個備考過程呢?以下就是我,如何用 AI 學習新領域、完整備考流程、實戰心法,以及提示詞(Prompt)的操作細節,原汁原味全部公開。
Thumbnail
嗨 我是CCChen 已參加經濟部iPAS AI應用規劃師-初級評鑑考試 預計2025年舉辦4場考試,已執行2場考試, 我都有參加也都合格. 也已報名8/16第三場初級考試 目的是持續收集考試題目與題型趨勢  順便為11月份第二場AI中級考試暖身與複習基礎知識  相關考試成績如下
Thumbnail
嗨 我是CCChen 已參加經濟部iPAS AI應用規劃師-初級評鑑考試 預計2025年舉辦4場考試,已執行2場考試, 我都有參加也都合格. 也已報名8/16第三場初級考試 目的是持續收集考試題目與題型趨勢  順便為11月份第二場AI中級考試暖身與複習基礎知識  相關考試成績如下
Thumbnail
這篇文章分享準備經濟部iPAS AI應用規劃師證照的經驗。文中介紹了官網的培訓資源,包括學習指引、政府相關培訓資源和數位學習課程,推薦初學者從『製造業AI升級引擎』的實體或線上課程開始學習。實體課程由產業競爭力發展中心提供。線上課程完成測驗後可獲得完訓證書。文章也包含10道AI應用規劃師考題
Thumbnail
這篇文章分享準備經濟部iPAS AI應用規劃師證照的經驗。文中介紹了官網的培訓資源,包括學習指引、政府相關培訓資源和數位學習課程,推薦初學者從『製造業AI升級引擎』的實體或線上課程開始學習。實體課程由產業競爭力發展中心提供。線上課程完成測驗後可獲得完訓證書。文章也包含10道AI應用規劃師考題
Thumbnail
從來沒想過,自己有一天可以受邀參加這種正式場合的活動。 今天,我來到了 IEAT 會議中心,以「AI 應用規劃師」的身分,參加經濟部 iPAS 產業人才能力鑑定的獲證者專場活動。現場聚集了一些人,全部都是經濟部認證的各行各業菁英唷!
Thumbnail
從來沒想過,自己有一天可以受邀參加這種正式場合的活動。 今天,我來到了 IEAT 會議中心,以「AI 應用規劃師」的身分,參加經濟部 iPAS 產業人才能力鑑定的獲證者專場活動。現場聚集了一些人,全部都是經濟部認證的各行各業菁英唷!
Thumbnail
經濟部iPAS「AI應用規劃師」證照考試分為初級和中級,本文說明兩者差異、考試內容、評分標準、時程、樣題以及準備資源。初級考試鎖定文組、非資工專業人士,中級則為資工專業人士及AI開發實務者。考試皆採電腦單選題,70分及格。考試難度高於樣題,需關注最新法規及AI工具。官網提供樣題、參考書籍及培訓資源。
Thumbnail
經濟部iPAS「AI應用規劃師」證照考試分為初級和中級,本文說明兩者差異、考試內容、評分標準、時程、樣題以及準備資源。初級考試鎖定文組、非資工專業人士,中級則為資工專業人士及AI開發實務者。考試皆採電腦單選題,70分及格。考試難度高於樣題,需關注最新法規及AI工具。官網提供樣題、參考書籍及培訓資源。
Thumbnail
經濟部舉辦114年度AI應用規劃師初級能力鑑定,整理考試心得、官網簡章、能力指標、鑑定範圍、樣題。此外提供作者備考期間用到的工具及Prompt,供大家參考。
Thumbnail
經濟部舉辦114年度AI應用規劃師初級能力鑑定,整理考試心得、官網簡章、能力指標、鑑定範圍、樣題。此外提供作者備考期間用到的工具及Prompt,供大家參考。
Thumbnail
嗨 我是CCChen: iPAS AI應用規劃師 初級 第一場 03/22 已舉辦收次測驗 04/09 已開放成績查詢 04/10 已公告官方統計之考試結果 簡單來分析一下, 供第二場考生參考:
Thumbnail
嗨 我是CCChen: iPAS AI應用規劃師 初級 第一場 03/22 已舉辦收次測驗 04/09 已開放成績查詢 04/10 已公告官方統計之考試結果 簡單來分析一下, 供第二場考生參考:
Thumbnail
初級其實不算很難,多花時間建構自己的AI底層邏輯,題目怎麼變都不怕,刷題的目的在於確認自己懂了哪些,哪些不熟,哪些還沒弄懂,很多人用刷題來學習,我覺得效果不會太好,現在很多用AI出題,沒有特別調整的話,題目答案都很直觀,對學習的幫助不大,我考過微軟的AI-900,AWS的AI認證,資策會的生成式AI
Thumbnail
初級其實不算很難,多花時間建構自己的AI底層邏輯,題目怎麼變都不怕,刷題的目的在於確認自己懂了哪些,哪些不熟,哪些還沒弄懂,很多人用刷題來學習,我覺得效果不會太好,現在很多用AI出題,沒有特別調整的話,題目答案都很直觀,對學習的幫助不大,我考過微軟的AI-900,AWS的AI認證,資策會的生成式AI
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News