數據分析系列(1):沒數據?叫 AI 變給你!五招獲取高品質練習資料

更新 發佈閱讀 17 分鐘
raw-image

你是否曾經有過這樣的念頭:「好想試試看用 Excel 跑出漂亮的圖表,看看能不能發現什麼有趣的趨勢?」但當你興沖沖地打開電腦,卻發現面對著一片空白的表格發呆——因為手邊根本沒有資料可以算。

這就像買了一套高級廚具,打開冰箱卻發現沒有食材可以料理一樣,讓人不知從何下手。

其實,數據分析並不是工程師或數學家的專利。只要你知道去哪裡找,數據其實無所不在!從我們每天的發票紀錄、Google 地圖足跡,到現在最紅的 AI 工具,都能成為你的「食材」。

這篇文章特別為新手整理了 五個最親民的獲取途徑。就算你完全沒學過程式,也能輕鬆獲得高品質的練習素材。特別是最後一招:直接叫 AI 幫你「憑空變出」一份擬真的飲料店銷售紀錄,讓你馬上就能體驗分析的樂趣!



一、獲取具質量的練習數據

其實數據到處都是,只要您知道去哪裡找。以下我為您整理 5 個獲取高質量練習數據的途徑,從最簡單到最專業都有:

1. 最快速:叫 AI 幫您「無中生有」 (推薦)

既然您已經在使用 Gemini,這是最快的方法。您可以要求 AI 生成符合特定情境的「模擬數據」。這對練習清洗數據(Data Cleaning)特別有用,因為您可以故意要求 AI 把數據弄得很亂。

  • 優點: 完全客製化、隨拿隨用、沒有版權問題。
  • Prompt範例:第二章節教學。

2. 最經典:公開數據競賽平台 (Kaggle)

這是全球數據分析師的寶庫。

  • 網站: Kaggle Datasets
  • 推薦理由: 這裡的數據通常有詳細的背景說明(Data Dictionary),而且可以參考別人(Notebooks)是如何分析同一份數據的。
  • 新手必練題目:
    • Titanic (鐵達尼號生存預測): 練習分類問題。
    • House Prices (房價預測): 練習回歸分析。

3. 最在地:政府開放資料平台 (Open Data)

如果您想做與台灣生活相關的分析,這裡最適合。

  • 網站: 政府資料開放平臺 (data.gov.tw)
  • 推薦理由: 貼近生活,分析出來的結果會有「有感」。
  • 有趣的數據集:
    • 不動產實價登錄(練習房價分析)。
    • 路口交通事故資料(練習地理熱點分析)。
    • YouBike 即時站點資料。

4. 內建練習檔:Python/R 套件或 BI 工具

如果您是使用程式語言或 Power BI,它們通常自帶經典數據集。

  • Python (Seaborn/Sklearn):
    • iris (鳶尾花分類)
    • tips (餐廳小費分析)
    • flights (航班乘客數)
  • Tableau / Power BI: 通常會附帶「Global Superstore (全球超市銷售數據)」,這是商業分析最完美的練習題,包含利潤、折扣、地區等多維度。

5. 生活數據:分析「你自己」

這是最有趣的來源。將您日常生活留下的數位足跡匯出。

  • Google Maps Timeline: 匯出您的定位紀錄,分析您最常去的地方。
  • 記帳軟體: 匯出 CSV,分析您的消費習慣。
  • Netflix/YouTube 觀看紀錄: 分析您的觀影喜好與時間分佈。



二、先用 AI 生成數據

1. 生成數據用的提示詞

簡易版的提示詞範例:

請幫我生成一份『虛擬的連鎖飲料店銷售數據』,格式為 CSV。
欄位包含:交易日期、分店地點(台北/台中/高雄)、飲品名稱、甜度、冰塊、價格、顧客性別。
請生成 500 筆資料,並且故意在『甜度』欄位中混雜一些缺失值或格式錯誤(例如 '半糖' 和 '50%' 混用),讓我練習數據清洗。

詳細版(定義清楚每一個變數)的提示詞範例:

角色:你現在是虛擬數據產生器。請幫我生成一份「台灣連鎖飲料店(手搖飲)」的銷售模擬數據,格式為 CSV code block,方便我直接複製。

需求說明:
我需要約 500 筆資料,資料必須包含以下欄位,並且要隱含一些「特定的數據規律」供我練習分析:

1. 欄位定義:
- Transaction_Date(交易日期):請集中在2024年1月到2024年3月,且週末的交易量要稍微比平日高。
- Order_ID(訂單編號):唯一值。
- Customer_ID(顧客編號):部分顧客會重複購買(為了練習計算回購率)
- Customer_Age(顧客年齡):15–65歲。
- Customer_Gender(性別):Male / Female。
- City(城市):請分佈在:台北市、台中市、高雄市。
- Drink_Category(飲品類別):原茶類、奶茶類、水果茶、咖啡飲品、季節限定飲品。
- Cup_Size(杯型):M / L。
- Unit_Price(單價,NTD):請根據飲品類別與杯型設定合理價格
- Quantity(杯數):1~4 杯不等
- Total_Sales(總金額):單價 × 數量

2. 請在數據中埋入以下「分析彩蛋」(規律):
- 趨勢規律:2 月份因農曆新年與返鄉人潮,「奶茶類」與「季節限定飲品」的銷量有明顯提升。
- 地理規律:「台北市」的訂單平均客單價(Average Order Value)要比其他城市高。
- 客群規律:「水果茶」的主要購買者設定為 20–35 歲女性。「咖啡飲品」在 30–50 歲族群中比例較高。

3. 資料品質要求:
- 請在數據中混雜一些:缺失值、格式不一致的資料、少量異常值

請直接輸出 CSV 格式內容,以便我練習,資料清洗與前處理。

2. 操作 AI 工具以生成數據

如下為 Gemini 回覆

這裡有一份包含髒數據(Dirty Data)的 CSV 文字內容。您可以直接點擊右上角的 「Copy code」,貼到記事本(Notepad)中,並另存為 sales_data.csv,即可用 Excel 開啟練習。

(為了版面整潔,這裡提供前 50 筆,若需完整 500 筆請使用Python生成)

50筆資料如下:

交易日期,分店地點,飲品名稱,甜度,冰塊,價格,顧客性別
2023-01-02,台北,珍珠奶茶,半糖,少冰,55,女
2023-01-05,台中,錫蘭紅茶,50%,微冰,30,男
2023-01-08,高雄,茉莉綠茶,全糖,正常冰,30,女
2023-01-12,台北,黃金烏龍,,去冰,35,男
2023-01-15,台中,百香雙響炮,30%,少冰,60,女
2023-01-18,高雄,芋頭鮮奶,微糖,微冰,65,男
2023-01-22,台北,珍珠奶茶,Regular,正常冰,55,女
2023-01-25,台中,錫蘭紅茶,0%,去冰,30,男
2023-01-28,高雄,黃金烏龍,少糖,熱,35,女
2023-02-01,台北,百香雙響炮,Full,少冰,60,男
2023-02-04,台中,芋頭鮮奶,無糖,微冰,65,女
2023-02-07,高雄,珍珠奶茶,70%,正常冰,55,男
2023-02-10,台北,錫蘭紅茶,半糖,去冰,30,女
2023-02-14,台中,茉莉綠茶,,熱,30,男
2023-02-18,高雄,黃金烏龍,30%,少冰,35,女
2023-02-21,台北,百香雙響炮,微糖,微冰,60,男
2023-02-25,台中,芋頭鮮奶,100%,正常冰,65,女
2023-03-01,高雄,珍珠奶茶,少糖,去冰,55,男
2023-03-05,台北,錫蘭紅茶,50%,少冰,30,女
2023-03-09,台中,茉莉綠茶,半糖,微冰,30,男
2023-03-12,高雄,黃金烏龍,Regular,正常冰,35,女
2023-03-16,台北,百香雙響炮,0%,去冰,60,男
2023-03-20,台中,芋頭鮮奶,全糖,熱,65,女
2023-03-24,高雄,珍珠奶茶,,少冰,55,男
2023-03-28,台北,錫蘭紅茶,30%,微冰,30,女
2023-04-01,台中,茉莉綠茶,微糖,正常冰,30,男
2023-04-05,高雄,黃金烏龍,Full,去冰,35,女
2023-04-09,台北,百香雙響炮,無糖,少冰,60,男
2023-04-13,台中,芋頭鮮奶,70%,微冰,65,女
2023-04-17,高雄,珍珠奶茶,半糖,正常冰,55,男
2023-04-21,台北,錫蘭紅茶,,去冰,30,女
2023-04-25,台中,茉莉綠茶,30%,熱,30,男
2023-04-29,高雄,黃金烏龍,微糖,少冰,35,女
2023-05-03,台北,百香雙響炮,100%,微冰,60,男
2023-05-07,台中,芋頭鮮奶,少糖,正常冰,65,女
2023-05-11,高雄,珍珠奶茶,50%,去冰,55,男
2023-05-15,台北,錫蘭紅茶,半糖,少冰,30,女
2023-05-19,台中,茉莉綠茶,Regular,微冰,30,男
2023-05-23,高雄,黃金烏龍,0%,正常冰,35,女
2023-05-27,台北,百香雙響炮,全糖,去冰,60,男
2023-05-31,台中,芋頭鮮奶,,熱,65,女
2023-06-04,高雄,珍珠奶茶,30%,少冰,55,男
2023-06-08,台北,錫蘭紅茶,微糖,微冰,30,女
2023-06-12,台中,茉莉綠茶,Full,正常冰,30,男
2023-06-16,高雄,黃金烏龍,無糖,去冰,35,女
2023-06-20,台北,百香雙響炮,70%,少冰,60,男
2023-06-24,台中,芋頭鮮奶,半糖,微冰,65,女
2023-06-28,高雄,珍珠奶茶,,正常冰,55,男
2023-07-02,台北,錫蘭紅茶,30%,去冰,30,女
2023-07-06,台中,茉莉綠茶,微糖,熱,30,男

若需要 500 筆資料,請使用 Python 程式碼生成 CSV 檔案。請複製以下程式碼,在您的 Python 環境(或 Google Colab)中執行,它會直接在該目錄下生成一個 drink_sales_dirty.csv 檔案。

import pandas as pd
import random
from datetime import datetime, timedelta

# 1. 設定參數
random.seed(42)
num_records = 500
locations = ['台北', '台中', '高雄']
drinks = {'珍珠奶茶': 55, '錫蘭紅茶': 30, '茉莉綠茶': 30, '黃金烏龍': 35, '百香雙響炮': 60, '芋頭鮮奶': 65}
ice_levels = ['正常冰', '少冰', '微冰', '去冰', '熱']
genders = ['男', '女']

# 甜度髒數據池
sugar_clean = ['全糖', '少糖', '半糖', '微糖', '無糖']
sugar_dirty = ['100%', '70%', '50%', '30%', '0%', 'Regular', 'Full', 'NaN', '']

data = []
start_date = datetime(2023, 1, 1)

# 2. 生成資料
for _ in range(num_records):
days_offset = random.randint(0, 365)
date = (start_date + timedelta(days=days_offset)).strftime('%Y-%m-%d')
location = random.choice(locations)
drink_name = random.choice(list(drinks.keys()))
price = drinks[drink_name]
ice = random.choice(ice_levels)
gender = random.choice(genders)

# 製造髒數據邏輯
rand_val = random.random()
if rand_val < 0.8:
sugar = random.choice(sugar_clean)
elif rand_val < 0.95:
sugar = random.choice(sugar_dirty)
else:
sugar = "" # 空值

data.append([date, location, drink_name, sugar, ice, price, gender])

# 3. 輸出 CSV
df = pd.DataFrame(data, columns=['交易日期', '分店地點', '飲品名稱', '甜度', '冰塊', '價格', '顧客性別'])
filename = "drink_sales_dirty.csv"
df.to_csv(filename, index=False, encoding='utf-8-sig')

print(f"成功生成 {filename},共 {num_records} 筆資料!")

3. 實際操作記錄

3.1 數據直接貼上

呈上50筆數據直接生成,即可直接存入檔案,可以直接 複製數據Copy code),貼到記事本(Notepad)中,並另存為 sales_data.csv,即可用 Excel 開啟練習,但遇到Excel CSV亂碼。

raw-image

編碼設置錯誤,故出現亂碼。請打開空白Excel活頁,如下:

raw-image

選取工具列的的「資料」分頁,並選擇「取得資料」:

raw-image

其中可以匯入CSV檔案:

raw-image

選擇檔案路徑及檔案:

raw-image

可看見檔案編碼為「950:繁體中文(Big5)」:

raw-image

可重新選擇編碼「65001:Unicode(UTF-8)」:

raw-image

選擇後,進行數據「轉換資料」:

raw-image

可以「關閉並載入」:

raw-image

載入數據到Excel:

raw-image

3.2 數據由程式生成

Google搜尋「Colab」:

raw-image

打開「Colab」程式編寫工具:

raw-image

打開「Colab」程式編寫工具:

raw-image

打開Colab於空白處把Gemini生成的程式碼貼上

raw-image

Colab連線到「算力」:

raw-image

Colab執行程式:

raw-image

執行結果可看到「數據生成」完成:

raw-image

下載數據檔案:(1)選擇左側「開啟檔案側邊欄 / Open File Sidebar」圖式;(2)可看到生成檔案,以提供下載。

raw-image

下載後檢視數據:

raw-image



三、結論

看完這五個方法,相信你已經發現,「數據」其實離我們很近,一點都不神秘。不需要多高深的背景,只要有了這些資料,你就能用最熟悉的 Excel 開始你的數據探索之旅。

我特別推薦大家試試看文章後半段的 「AI 生成法」

為什麼呢?因為透過簡單的對話,你就能擁有一份專屬於你的模擬資料。而且我還特地請 AI 在裡面埋了一些「小彩蛋」(比如故意寫錯的格式、漏掉的資料)。這能讓你體驗像是「大家來找碴」一樣的樂趣——試著把這些混亂的資料整理乾淨,這正是數據分析最真實、也最有成就感的過程。

別想太多,現在就下載那份飲料店資料,親手玩玩看吧!當你從一堆冷冰冰的數字中,發現「原來台北人最愛喝這款飲料」的瞬間,你會發現數據分析其實超有趣的!

留言
avatar-img
留言分享你的想法!
avatar-img
湯姆士老師的創作空間
77會員
26內容數
以 AI 研究與教育創新為核心,我在這裡分享創作、教學與實驗成果。希望透過作品與想法,陪伴每位學習者與創作者一起探索、一起提問、一起把靈感變成可能。歡迎走進這個充滿好奇與創造力的空間,一起讓未來更靠近我們一點。