L11201：資料基本概念與來源

Bruce Chen

2025/04/15 更新2025/04/15 發佈閱讀 6 分鐘

L11：人工智慧基礎概論
L112：資料處理與分析概念
L11201：資料基本概念與來源

Prompt

大數據、資料型態與結構，如數值型資料、文字資料、圖像資料等，相關基本概念，及來源等進行說明。

關鍵要點

大數據是指體積龐大、複雜的數據集，特徵包括數量（Volume）、速度（Velocity）和多樣性（Variety），對AI訓練至關重要。
數據類型包括數值型數據（如股票價格）、文字數據（如社交媒體帖子）和圖像數據（如醫療影像），結構分別為結構化、半結構化/非結構化及非結構化。
數據來源包括金融交易（數值型）、書籍與線上文章（文字型）、相機與衛星影像（圖像型）。

大數據概述

大數據是指體積龐大且複雜的數據集，難以用傳統工具管理。它的特徵包括：

數量（Volume）：數據生成量巨大。
速度（Velocity）：數據生成與處理速度快。
多樣性（Variety）：數據形式多樣，包括結構化、半結構化和非結構化數據。在大數據時代，AI依賴這些數據來訓練模型，提升準確性和性能。

數據類型與結構

以下是數值型、文字型和圖像型數據的詳細說明：

數值型數據

定義：由數字組成，可用於數學運算，常用於AI的預測和預測分析。
例子：股票價格、感測器讀數、金融交易。
結構：通常為結構化數據，組織於表格中，如電子表格或數據庫。

文字型數據

定義：由文字信息組成，如單詞或句子，AI通過自然語言處理（NLP）技術進行分析，如情感分析或語言翻譯。
例子：書籍、文章、社交媒體帖子、客戶評論。
結構：可以是非結構化（如純文字）或半結構化（如XML、JSON文件）。

圖像型數據

定義：由圖像組成，表現為像素網格，AI用於計算機視覺任務，如物體檢測、圖像分類。
例子：照片、衛星影像、醫療影像。
結構：為非結構化數據，無固定的表格格式。

數據來源

不同數據類型的來源包括：

數值型數據：金融機構（如股票市場數據）、科學研究（如實驗結果）、物聯網設備（如感測器數據）。
文字型數據：圖書館與檔案（如書籍、學術論文）、線上平台（如網站、博客、社交媒體）、客戶反饋（如評論、調查）。
圖像型數據：相機與監控系統（如安全攝像頭、交通攝像頭）、衛星（如地球觀測影像）、醫療成像設備（如X光、MRI、CT掃描）。

詳細報告

以下是對大數據、數據類型與結構、數據來源的全面分析，涵蓋所有相關細節，適合深入研究與應用。

大數據的定義與特徵

大數據是指數據量巨大、複雜性高，難以用傳統數據管理工具處理的數據集。根據Wikipedia的定義，其核心特徵包括：

數量（Volume）：數據生成量巨大，例如企業每天產生的交易記錄或社交媒體數據。
速度（Velocity）：數據生成與處理速度快，如即時感測器數據流或社交媒體更新。
多樣性（Variety）：數據形式多樣，包括結構化數據（如數據庫表格）、半結構化數據（如JSON文件）和非結構化數據（如圖像、視頻）。在大數據背景下，AI特別依賴這些數據來訓練機器學習模型，提升模型的準確性和泛化能力。例如，Investopedia指出，大數據分析能為企業提供有價值的洞察，特別是在AI應用中。

數據類型與結構的細分

根據用戶提到的數值型、文字型和圖像型數據，以下是每個類型的詳細定義、例子和結構分析：

數值型數據

定義：數值型數據由數字組成，可進行數學運算，常用於AI的統計分析和機器學習算法。根據Glossary of AI，數值型數據可分為連續型（如溫度）和離散型（如人數）。
例子：股票價格、感測器讀數（如溫度和壓力）、金融交易金額。
結構：通常為結構化數據，組織於表格中，如CSV文件或SQL數據庫。這種結構便於AI模型進行數值計算和特徵工程，例如Google for Developers建議使用數據視覺化（如直方圖）來分析數值型數據。

文字型數據

定義：文字型數據由文字信息組成，如單詞、句子或段落，AI通過自然語言處理（NLP）技術進行分析。根據Machine Learning & Text Analysis，文字分析能回答問題如評論的情感傾向或文本的主題。
例子：書籍內容、線上文章、社交媒體帖子（如X帖子）、客戶評論。
結構：可以是非結構化（如純文字文件）或半結構化（如XML、JSON格式）。例如，社交媒體數據通常是非結構化，但可通過標記（如標籤）轉化為半結構化數據，適用於AI的文本分類任務。

圖像型數據

定義：圖像型數據由圖像組成，表現為像素網格，AI用於計算機視覺任務，如物體檢測和圖像分類。根據Image Classification in AI，圖像數據通常通過卷積神經網絡（CNN）處理。
例子：數碼照片、衛星影像（如Google Earth）、醫療影像（如X光、MRI）。
結構：為非結構化數據，無固定的表格格式，但AI模型會將其轉換為數值陣列（如像素值）進行處理。例如，AI Image Processing提到，圖像數據集需標記以訓練模型。

數據來源的具體分析

數據來源是AI發展的關鍵，以下是每個數據類型的具體來源，參考Kantify和其他資源：

數值型數據來源

金融機構：股票市場數據（如每日交易量）、銀行交易記錄。
科學研究：實驗數據，如物理實驗的測量結果。
物聯網設備：感測器數據，如智能家居的溫度和濕度讀數。這些數據通常來自內部系統或第三方數據提供商，如市場分析報告。

文字型數據來源

圖書館與檔案：書籍內容、學術論文數據庫（如Google Scholar）。
線上平台：網站文章、博客內容、社交媒體平台（如X帖子，example）。
客戶反饋：客戶評論、調查問卷反饋，特別是開放式問題的文本數據。這些來源提供豐富的文字數據，適用於NLP任務，如情感分析和文本生成。

圖像型數據來源

相機與監控系統：安全攝像頭影像、交通監控視頻。
衛星：地球觀測影像，如氣候監測數據。
醫療成像設備：X光、MRI、CT掃描影像，常用於醫療AI診斷。這些數據通常來自公共數據集（如ImageNet）或專有設備，需進行標記以供AI訓練。

數據在AI中的應用與挑戰

所有這些數據類型最終需轉換為數值形式以供AI模型處理。例如，圖像數據轉換為像素值陣列，文字數據通過詞嵌入（如Word2Vec）轉換為向量。數據質量和數量對AI模型的性能至關重要，特別是大數據環境下，數據的多樣性和即時性成為挑戰。

以下表格總結了數據類型、結構和來源的對比：

結論

大數據和數據類型的理解是AI基礎的重要部分。數值型、文字型和圖像型數據各有其特性和來源，合理利用這些數據能顯著提升AI模型的性能和應用價值。

關鍵引用

大数据定义来自维基百科
来自 Glossary of AI 的 AI 中的数值数据
来自机器学习和文本分析的文本数据分析
来自 Levity 的 AI 中的图像分类
来自 Kantify 的 AI 数据源

含 AI 應用內容

留言

留言分享你的想法！

Bruce Chen的沙龍

0會員

24內容數

Bruce Chen的沙龍的其他內容

2025/04/28

iPAS AI應用規劃師總算迎來學習指引

iPAS AI應用規劃師總算迎來學習指引，前往取得學習指引文件。

2025/04/28

iPAS AI應用規劃師總算迎來學習指引

iPAS AI應用規劃師總算迎來學習指引，前往取得學習指引文件。

2025/04/15

iPAS AI應用規劃師能力鑑定備考心得

經濟部舉辦114年度AI應用規劃師初級能力鑑定，整理考試心得、官網簡章、能力指標、鑑定範圍、樣題。此外提供作者備考期間用到的工具及Prompt，供大家參考。

2025/04/15

iPAS AI應用規劃師能力鑑定備考心得

2025/04/15

L12303：生成式AI風險管理

生成式AI在倫理風險、資料安全隱私與合規性等有哪些重點要留意？此外還有哪些風險應該一併考量？

2025/04/15

L12303：生成式AI風險管理

生成式AI在倫理風險、資料安全隱私與合規性等有哪些重點要留意？此外還有哪些風險應該一併考量？

#AI 的其他內容

Google Stitch：生成 UI 介面設計，加速產品原型開發與協作

張紹宏

Gemini Pro 學生方案怎麼一直申請失敗? 原來是少做了「這件事」!

你可能也想看

閒水鴨的日常

【開箱】瀏海人必備神器！KOIZUMI mini瀏海梳，送走惱人條碼瀏海頭！

覺得黏在額頭上的"條碼瀏海"很阿雜嗎？日本熱銷的「KOIZUMI迷你瀏海梳」，不僅小巧便攜，更能快速加熱造型，無論是齊瀏海、空氣瀏海還是韓系碎蓋髮，都能輕鬆打理！瀏海順了，一整天心情就好了！

#KOIZUMI瀏海梳#瀏海神器#KOIZUMI

2025/11/07

閒水鴨的日常

【開箱】瀏海人必備神器！KOIZUMI mini瀏海梳，送走惱人條碼瀏海頭！

#KOIZUMI瀏海梳#瀏海神器#KOIZUMI

2025/11/07

可憐的社畜的沙龍

TMB登山好幫手推薦｜我的實測好物＋雙11蝦皮購物清單

走完朝聖之路和TMB後，我發現真正能撐住長時間健行的，不只是腳力，而是那些讓生活更舒服的小物。這篇整理了我在TMB實測後覺得超好用的三樣登山神器——防水襪、肥皂袋、速乾毛巾，每一樣都讓旅程更輕鬆！

#登山裝備推薦#TMB裝備清單#健行必備小物

2025/11/07

可憐的社畜的沙龍

TMB登山好幫手推薦｜我的實測好物＋雙11蝦皮購物清單

#登山裝備推薦#TMB裝備清單#健行必備小物

2025/11/07

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

#AI#ai#PromptEngineering

2024/08/13

Learn AI 不 BI

AI說書 - 從0開始 - 116 | Google Trax 進行推論

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型，並在 AI說書 - 從0開始 - 115 載入權重並執行 Tokenizing，現

#AI#ai#PromptEngineering

2024/08/06

Learn AI 不 BI

AI說書 - 從0開始 - 116 | Google Trax 進行推論

#AI#ai#PromptEngineering

2024/08/06

Learn AI 不 BI

AI說書 - 從0開始 - 108 | 資料清洗總匯

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。總結一下目前有的素材： AI說書 - 從0開始 - 103：資料集載入 AI說書 - 從0開始 - 104：定義資料清洗的函數 AI說書 - 從0開始 - 105

#AI#ai#PromptEngineering

2024/07/30

Learn AI 不 BI

AI說書 - 從0開始 - 108 | 資料清洗總匯

#AI#ai#PromptEngineering

2024/07/30

Learn AI 不 BI

AI說書 - 從0開始 - 105 | AI 資料準備

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。目前我們已經有資料集在 AI說書 - 從0開始 - 103 ，必要的清理函數在 AI說書 - 從0開始 - 104 ，現在把它們湊在一起，如下： # load Eng

#AI#ai#PromptEngineering

2024/07/27

Learn AI 不 BI

AI說書 - 從0開始 - 105 | AI 資料準備

#AI#ai#PromptEngineering

2024/07/27

Learn AI 不 BI

AI說書 - 從0開始 - 86

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明，有一個很重要的結論：最適合您的模型不一定是排行榜上最好的模型，您需要學習 NLP 評

#AI#ai#PromptEngineering

2024/07/13

Learn AI 不 BI

AI說書 - 從0開始 - 86

#AI#ai#PromptEngineering

2024/07/13

Learn AI 不 BI

AI說書 - 從0開始 - 85

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。新模型和 Human Baselines 排名將不斷變化，Human Baselines 的位置自從基礎模型出現以來，它就不再具有多大意義了，這些排名只是表明經典 NL

#AI#ai#PromptEngineering

2024/07/12

Learn AI 不 BI

AI說書 - 從0開始 - 85

#AI#ai#PromptEngineering

2024/07/12

Learn AI 不 BI

AI說書 - 從0開始 - 18

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在AI說書 - 從0開始 - 17中，介紹了大型語言模型 (LLM)世界裡面常用到的Token，現在我們來談談OpenAI的GPT模型如何利用Inference

#AI#ai#PromptEngineering

2024/06/15

Learn AI 不 BI

AI說書 - 從0開始 - 18

#AI#ai#PromptEngineering

2024/06/15

Marcos的方格子

大型語言模型常用的提詞框架 | Coursera 課程回顧(下)

大型語言模型（Large Language Model，LLM）是一項人工智慧技術，其目的在於理解和生成人類語言，可將其想像成一種高階的「文字預測機器」，然而，它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外，今天我們會介紹使用 LLM 的框架。

#PromptPattern#LLM#ChatGPT

2024/03/09

Marcos的方格子

大型語言模型常用的提詞框架 | Coursera 課程回顧(下)

#PromptPattern#LLM#ChatGPT

2024/03/09

凱茜女孩的沙龍

用英文解釋自己專業領域的概念

我自己私下會追蹤科技相關主題的自媒體，之前我在 LinkedIn 上看到一個我追蹤的 Data Scientist (資料科學家) 提到關於AI的兩個專有名詞，她想跟大家解釋這兩個大家容易搞混的專有名詞概念有甚麼不同，我滿喜歡她解釋的方式，條理很清楚，很快可以理解想表達甚麼

2024/02/13

2024/02/13

【大語言模型LLMs：為何「大」字至關重要？】

大語言模型（LLMs）對於任何對人工智能和自然語言處理感興趣的人來說都是一個令人興奮的領域。這類模型，如GPT-4，透過其龐大的數據集和複雜的參數設置，提供了前所未有的語言理解和生成能力。那麼，究竟是什麼讓這些模型「大」得如此不同呢？

#大語言模型#GPT4#ChatGPT

2024/01/19

王啟樺的沙龍

【大語言模型LLMs：為何「大」字至關重要？】

#大語言模型#GPT4#ChatGPT

2024/01/19

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News