數據分析系列(1)：沒數據？叫 AI 變給你！五招獲取高品質練習資料

湯姆士老師

發佈於AI 數據洞察

2025/12/17 更新2025/12/17 發佈閱讀 17 分鐘

你是否曾經有過這樣的念頭：「好想試試看用 Excel 跑出漂亮的圖表，看看能不能發現什麼有趣的趨勢？」但當你興沖沖地打開電腦，卻發現面對著一片空白的表格發呆——因為手邊根本沒有資料可以算。

這就像買了一套高級廚具，打開冰箱卻發現沒有食材可以料理一樣，讓人不知從何下手。

其實，數據分析並不是工程師或數學家的專利。只要你知道去哪裡找，數據其實無所不在！從我們每天的發票紀錄、Google 地圖足跡，到現在最紅的 AI 工具，都能成為你的「食材」。

這篇文章特別為新手整理了 五個最親民的獲取途徑。就算你完全沒學過程式，也能輕鬆獲得高品質的練習素材。特別是最後一招：直接叫 AI 幫你「憑空變出」一份擬真的飲料店銷售紀錄，讓你馬上就能體驗分析的樂趣！

一、獲取具質量的練習數據

其實數據到處都是，只要您知道去哪裡找。以下我為您整理 5 個獲取高質量練習數據的途徑，從最簡單到最專業都有：

1. 最快速：叫 AI 幫您「無中生有」 (推薦)

既然您已經在使用 Gemini，這是最快的方法。您可以要求 AI 生成符合特定情境的「模擬數據」。這對練習清洗數據（Data Cleaning）特別有用，因為您可以故意要求 AI 把數據弄得很亂。

優點： 完全客製化、隨拿隨用、沒有版權問題。
Prompt範例：第二章節教學。

2. 最經典：公開數據競賽平台 (Kaggle)

這是全球數據分析師的寶庫。

網站： Kaggle Datasets
推薦理由： 這裡的數據通常有詳細的背景說明（Data Dictionary），而且可以參考別人（Notebooks）是如何分析同一份數據的。
新手必練題目：
- Titanic (鐵達尼號生存預測)：練習分類問題。
- House Prices (房價預測)：練習回歸分析。

3. 最在地：政府開放資料平台 (Open Data)

如果您想做與台灣生活相關的分析，這裡最適合。

網站： 政府資料開放平臺 (data.gov.tw)
推薦理由： 貼近生活，分析出來的結果會有「有感」。
有趣的數據集：
- 不動產實價登錄（練習房價分析）。
- 路口交通事故資料（練習地理熱點分析）。
- YouBike 即時站點資料。

4. 內建練習檔：Python/R 套件或 BI 工具

如果您是使用程式語言或 Power BI，它們通常自帶經典數據集。

Python (Seaborn/Sklearn)：
- iris (鳶尾花分類)
- tips (餐廳小費分析)
- flights (航班乘客數)
Tableau / Power BI： 通常會附帶「Global Superstore (全球超市銷售數據)」，這是商業分析最完美的練習題，包含利潤、折扣、地區等多維度。

5. 生活數據：分析「你自己」

這是最有趣的來源。將您日常生活留下的數位足跡匯出。

Google Maps Timeline： 匯出您的定位紀錄，分析您最常去的地方。
記帳軟體： 匯出 CSV，分析您的消費習慣。
Netflix/YouTube 觀看紀錄： 分析您的觀影喜好與時間分佈。

二、先用 AI 生成數據

1. 生成數據用的提示詞

簡易版的提示詞範例：

請幫我生成一份『虛擬的連鎖飲料店銷售數據』，格式為 CSV。
欄位包含：交易日期、分店地點（台北/台中/高雄）、飲品名稱、甜度、冰塊、價格、顧客性別。
請生成 500 筆資料，並且故意在『甜度』欄位中混雜一些缺失值或格式錯誤（例如 '半糖' 和 '50%' 混用），讓我練習數據清洗。

詳細版(定義清楚每一個變數)的提示詞範例：

角色：你現在是虛擬數據產生器。請幫我生成一份「台灣連鎖飲料店（手搖飲）」的銷售模擬數據，格式為 CSV code block，方便我直接複製。

需求說明：
我需要約 500 筆資料，資料必須包含以下欄位，並且要隱含一些「特定的數據規律」供我練習分析：

1. 欄位定義：
   - Transaction_Date（交易日期）：請集中在2024年1月到2024年3月，且週末的交易量要稍微比平日高。
   - Order_ID（訂單編號）：唯一值。
   - Customer_ID（顧客編號）：部分顧客會重複購買（為了練習計算回購率）
   - Customer_Age（顧客年齡）：15–65歲。
   - Customer_Gender（性別）：Male / Female。
   - City（城市）：請分佈在：台北市、台中市、高雄市。
   - Drink_Category（飲品類別）：原茶類、奶茶類、水果茶、咖啡飲品、季節限定飲品。
   - Cup_Size（杯型）：M / L。
   - Unit_Price（單價，NTD）：請根據飲品類別與杯型設定合理價格
   - Quantity（杯數）：1～4 杯不等
   - Total_Sales（總金額）：單價 × 數量

2. 請在數據中埋入以下「分析彩蛋」（規律）：
   - 趨勢規律：2 月份因農曆新年與返鄉人潮，「奶茶類」與「季節限定飲品」的銷量有明顯提升。
   - 地理規律：「台北市」的訂單平均客單價（Average Order Value）要比其他城市高。
   - 客群規律：「水果茶」的主要購買者設定為 20–35 歲女性。「咖啡飲品」在 30–50 歲族群中比例較高。

3. 資料品質要求：
   - 請在數據中混雜一些：缺失值、格式不一致的資料、少量異常值

請直接輸出 CSV 格式內容，以便我練習，資料清洗與前處理。

2. 操作 AI 工具以生成數據

如下為 Gemini 回覆：

這裡有一份包含髒數據（Dirty Data）的 CSV 文字內容。您可以直接點擊右上角的 「Copy code」，貼到記事本（Notepad）中，並另存為 sales_data.csv，即可用 Excel 開啟練習。

(為了版面整潔，這裡提供前 50 筆，若需完整 500 筆請使用Python生成)

50筆資料如下：

交易日期,分店地點,飲品名稱,甜度,冰塊,價格,顧客性別
2023-01-02,台北,珍珠奶茶,半糖,少冰,55,女
2023-01-05,台中,錫蘭紅茶,50%,微冰,30,男
2023-01-08,高雄,茉莉綠茶,全糖,正常冰,30,女
2023-01-12,台北,黃金烏龍,,去冰,35,男
2023-01-15,台中,百香雙響炮,30%,少冰,60,女
2023-01-18,高雄,芋頭鮮奶,微糖,微冰,65,男
2023-01-22,台北,珍珠奶茶,Regular,正常冰,55,女
2023-01-25,台中,錫蘭紅茶,0%,去冰,30,男
2023-01-28,高雄,黃金烏龍,少糖,熱,35,女
2023-02-01,台北,百香雙響炮,Full,少冰,60,男
2023-02-04,台中,芋頭鮮奶,無糖,微冰,65,女
2023-02-07,高雄,珍珠奶茶,70%,正常冰,55,男
2023-02-10,台北,錫蘭紅茶,半糖,去冰,30,女
2023-02-14,台中,茉莉綠茶,,熱,30,男
2023-02-18,高雄,黃金烏龍,30%,少冰,35,女
2023-02-21,台北,百香雙響炮,微糖,微冰,60,男
2023-02-25,台中,芋頭鮮奶,100%,正常冰,65,女
2023-03-01,高雄,珍珠奶茶,少糖,去冰,55,男
2023-03-05,台北,錫蘭紅茶,50%,少冰,30,女
2023-03-09,台中,茉莉綠茶,半糖,微冰,30,男
2023-03-12,高雄,黃金烏龍,Regular,正常冰,35,女
2023-03-16,台北,百香雙響炮,0%,去冰,60,男
2023-03-20,台中,芋頭鮮奶,全糖,熱,65,女
2023-03-24,高雄,珍珠奶茶,,少冰,55,男
2023-03-28,台北,錫蘭紅茶,30%,微冰,30,女
2023-04-01,台中,茉莉綠茶,微糖,正常冰,30,男
2023-04-05,高雄,黃金烏龍,Full,去冰,35,女
2023-04-09,台北,百香雙響炮,無糖,少冰,60,男
2023-04-13,台中,芋頭鮮奶,70%,微冰,65,女
2023-04-17,高雄,珍珠奶茶,半糖,正常冰,55,男
2023-04-21,台北,錫蘭紅茶,,去冰,30,女
2023-04-25,台中,茉莉綠茶,30%,熱,30,男
2023-04-29,高雄,黃金烏龍,微糖,少冰,35,女
2023-05-03,台北,百香雙響炮,100%,微冰,60,男
2023-05-07,台中,芋頭鮮奶,少糖,正常冰,65,女
2023-05-11,高雄,珍珠奶茶,50%,去冰,55,男
2023-05-15,台北,錫蘭紅茶,半糖,少冰,30,女
2023-05-19,台中,茉莉綠茶,Regular,微冰,30,男
2023-05-23,高雄,黃金烏龍,0%,正常冰,35,女
2023-05-27,台北,百香雙響炮,全糖,去冰,60,男
2023-05-31,台中,芋頭鮮奶,,熱,65,女
2023-06-04,高雄,珍珠奶茶,30%,少冰,55,男
2023-06-08,台北,錫蘭紅茶,微糖,微冰,30,女
2023-06-12,台中,茉莉綠茶,Full,正常冰,30,男
2023-06-16,高雄,黃金烏龍,無糖,去冰,35,女
2023-06-20,台北,百香雙響炮,70%,少冰,60,男
2023-06-24,台中,芋頭鮮奶,半糖,微冰,65,女
2023-06-28,高雄,珍珠奶茶,,正常冰,55,男
2023-07-02,台北,錫蘭紅茶,30%,去冰,30,女
2023-07-06,台中,茉莉綠茶,微糖,熱,30,男

若需要 500 筆資料，請使用 Python 程式碼生成 CSV 檔案。請複製以下程式碼，在您的 Python 環境（或 Google Colab）中執行，它會直接在該目錄下生成一個 drink_sales_dirty.csv 檔案。

import pandas as pd
import random
from datetime import datetime, timedelta

# 1. 設定參數
random.seed(42)
num_records = 500
locations = ['台北', '台中', '高雄']
drinks = {'珍珠奶茶': 55, '錫蘭紅茶': 30, '茉莉綠茶': 30, '黃金烏龍': 35, '百香雙響炮': 60, '芋頭鮮奶': 65}
ice_levels = ['正常冰', '少冰', '微冰', '去冰', '熱']
genders = ['男', '女']

# 甜度髒數據池
sugar_clean = ['全糖', '少糖', '半糖', '微糖', '無糖']
sugar_dirty = ['100%', '70%', '50%', '30%', '0%', 'Regular', 'Full', 'NaN', '']

data = []
start_date = datetime(2023, 1, 1)

# 2. 生成資料
for _ in range(num_records):
    days_offset = random.randint(0, 365)
    date = (start_date + timedelta(days=days_offset)).strftime('%Y-%m-%d')
    location = random.choice(locations)
    drink_name = random.choice(list(drinks.keys()))
    price = drinks[drink_name]
    ice = random.choice(ice_levels)
    gender = random.choice(genders)
    
    # 製造髒數據邏輯
    rand_val = random.random()
    if rand_val < 0.8:
        sugar = random.choice(sugar_clean)
    elif rand_val < 0.95:
        sugar = random.choice(sugar_dirty)
    else:
        sugar = "" # 空值
        
    data.append([date, location, drink_name, sugar, ice, price, gender])

# 3. 輸出 CSV
df = pd.DataFrame(data, columns=['交易日期', '分店地點', '飲品名稱', '甜度', '冰塊', '價格', '顧客性別'])
filename = "drink_sales_dirty.csv"
df.to_csv(filename, index=False, encoding='utf-8-sig')

print(f"成功生成 {filename}，共 {num_records} 筆資料！")

3. 實際操作記錄

3.1 數據直接貼上

呈上50筆數據直接生成，即可直接存入檔案，可以直接 複製數據（Copy code），貼到記事本（Notepad）中，並另存為 sales_data.csv，即可用 Excel 開啟練習，但遇到Excel CSV亂碼。

編碼設置錯誤，故出現亂碼。請打開空白Excel活頁，如下：

選取工具列的的「資料」分頁，並選擇「取得資料」：

其中可以匯入CSV檔案：

選擇檔案路徑及檔案：

可看見檔案編碼為「950：繁體中文(Big5)」：

可重新選擇編碼「65001：Unicode(UTF-8)」：

選擇後，進行數據「轉換資料」：

可以「關閉並載入」：

載入數據到Excel：

3.2 數據由程式生成

Google搜尋「Colab」：

打開「Colab」程式編寫工具：

打開Colab於空白處把Gemini生成的程式碼貼上：

Colab連線到「算力」：

Colab執行程式：

執行結果可看到「數據生成」完成：

下載數據檔案：(1)選擇左側「開啟檔案側邊欄 / Open File Sidebar」圖式；(2)可看到生成檔案，以提供下載。

下載後檢視數據：

三、結論

看完這五個方法，相信你已經發現，「數據」其實離我們很近，一點都不神秘。不需要多高深的背景，只要有了這些資料，你就能用最熟悉的 Excel 開始你的數據探索之旅。

我特別推薦大家試試看文章後半段的 「AI 生成法」。

為什麼呢？因為透過簡單的對話，你就能擁有一份專屬於你的模擬資料。而且我還特地請 AI 在裡面埋了一些「小彩蛋」（比如故意寫錯的格式、漏掉的資料）。這能讓你體驗像是「大家來找碴」一樣的樂趣——試著把這些混亂的資料整理乾淨，這正是數據分析最真實、也最有成就感的過程。

別想太多，現在就下載那份飲料店資料，親手玩玩看吧！當你從一堆冷冰冰的數字中，發現「原來台北人最愛喝這款飲料」的瞬間，你會發現數據分析其實超有趣的！

留言

湯姆士老師的創作空間

110會員

26內容數

以 AI 研究與教育創新為核心，我在這裡分享創作、教學與實驗成果。希望透過作品與想法，陪伴每位學習者與創作者一起探索、一起提問、一起把靈感變成可能。歡迎走進這個充滿好奇與創造力的空間，一起讓未來更靠近我們一點。

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品，以十段寓言式殘篇，重新拼貼記憶、暴力與美學，並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇：帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略，嘗試解析極權底下不可言說之事，將如何成為可被觀看的公共發聲。

#釀電影#釀評論#藝術評論

2026/01/14

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

#釀電影#釀評論#藝術評論

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

柏林劇團在 2026 北藝嚴選，再次帶來由布萊希特改編的經典劇目《三便士歌劇》（The Threepenny Opera），導演巴里・柯斯基以舞台結構與舞台調度，重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核，藉由沉浸與疏離的辯證，解析此作如何再次照見觀眾自身的位置。

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲．蓋柏樂》的詮釋，從劇本歷史、聲響與舞臺設計，到演員的主體創作方法，探討此版本如何讓經典劇作在當代劇場語境下煥發新生，滿足現代觀眾的觀看慾望。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

涵柳的沙龍

《轉轉生 Re:INCARNATION》：從身體與服裝看見奈及利亞的重生

《轉轉生》為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，融合舞蹈、音樂、時尚和視覺藝術，透過身體、服裝與群舞結構，回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發，分析《轉轉生》如何以當代目光，形塑去殖民視角的奈及利亞歷史。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14