大數據分析的關鍵知識

更新於 2025/04/21發佈於 2025/04/21閱讀時間約 2 分鐘

大數據分析的關鍵知識：

一、描述性統計：數據的起點

描述性統計是大數據分析的第一步，用來總結數據的樣貌。

它包含三個重點：集中趨勢、離散程度和分佈形狀。

集中趨勢：幫你找到數據的「中心」。
- 均值：所有數據加起來除以總數，像計算班上平均分數。
- 小心極端值會拉高或拉低結果。
- 中位數：數據排序後的中間值，適合分析收入這種有高低差距的數據。
- 眾數：出現最多的值，像是找出最受歡迎的產品款式。
離散程度：看數據分散的程度。
- 範圍：最大值減最小值，簡單但容易被異常值影響。
- 標準差：數據離均值有多遠，標準差越大，數據越分散。
分佈形狀：了解數據的「長相」。
- 偏態：數據分佈是否對稱。
- 正偏態右邊尾巴長（如收入分佈），負偏態左邊尾巴長（如考試成績）。
- 箱形圖：展示數據的五個關鍵點（最小值、四分之一位、中位數、四分之三位、最大值），能快速看出異常值。

學習小訣竅：記住「MMM」（Mean、Median、Mode）代表集中趨勢。

想像偏態是數據分佈的「尾巴」，右長是正偏態，左長是負偏態。

二、推論性統計：從小數據猜大數據

推論性統計讓你從樣本推測整體數據的特性，因大數據時代不可能分析所有數據。這部分對AI模型評估特別重要。

樣本與總體：樣本是總體的一部分，比如從全校學生抽100人來推測平均身高。
假說檢定：像法庭審判，先假設「沒差異」（虛無假說H0），再用數據證明是否有差異（對立假說H1）。例如，測試新AI模型是否比舊模型準確。
大數據挑戰：數據來源可能不一致（像不同城市的數據混雜），導致推論不準，必須小心處理。

學習小訣竅：把假說檢定想成「挑戰預設」，H0是「一切正常」，H1是「有新發現」。

三、大數據技術：Hadoop與Spark的對決

大數據需要強大的工具來處理。

Hadoop：
- 像一輛穩重的貨車，適合處理超大數據。
- 核心：HDFS存數據，MapReduce做批處理，YARN管資源。
- 優點：穩定，適合日誌分析。
- 缺點：速度慢，依賴硬盤。
Spark：
- 像一輛高速跑車，用內存計算，速度比Hadoop快10-100倍。
- 核心：支援實時處理、SQL查詢和機器學習。
- 優點：快速靈活，適合實時分析。
- 缺點：需要更多內存。
視覺化工具：
- Power BI：像進階版Excel，容易上手，適合做商業報表。
- Tableau：像藝術家的畫布，視覺效果強大，適合探索複雜數據。

學習小訣竅：

記住

Hadoop是「慢但穩」，

Spark是「快而靈」。

留言

留言分享你的想法！

ten was的沙龍

1會員

22內容數

ten was的沙龍的其他內容

2025/04/29

IPAS 生成式AI心智圖

2025/04/29

IPAS 生成式AI心智圖

2025/04/29

以心智圖方式來呈現AI工具介紹，方便快速記憶

2025/04/29

以心智圖方式來呈現AI工具介紹，方便快速記憶

2025/04/28

IPAS 名詞簡單說明

IPAS 名詞簡單說明

2025/04/28

IPAS 名詞簡單說明

IPAS 名詞簡單說明

你可能也想看

方格子 vocus 官方沙龍

開箱你的美好生活：一起來寫開箱賺獎金！#品牌合作

「欸！這是在哪裡買的？求連結 🥺」誰叫你太有品味，一發就讓大家跟著剁手手？讓你回購再回購的生活好物，是時候該介紹出場了吧！「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩

#蝦皮分潤計畫#開箱#蝦皮

2025/05/12

方格子 vocus 官方沙龍

開箱你的美好生活：一起來寫開箱賺獎金！#品牌合作

「欸！這是在哪裡買的？求連結 🥺」誰叫你太有品味，一發就讓大家跟著剁手手？讓你回購再回購的生活好物，是時候該介紹出場了吧！「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩

#蝦皮分潤計畫#開箱#蝦皮

2025/05/12

上班族簡報日常的沙龍

數據分析｜只懂用長蛇IF或是VLOOKUP? 數據分類函數運用，製作圖表前先學好EXCEL數據梳理

商業簡報不僅僅是呈現數據，更需要深入瞭解數據分析及有效的工具運用。本文探討於Excel中使用不同函數來改善數據處理效率，包括IF、IFS、VLOOKUP、XLOOKUP及INDEX與MATCH的結合，幫助商業人士更好地從數據中提取洞見，助力業務增值，學習優化數據分析過程，讓您的商業簡報更具影響力。

#數據#簡報#商業簡報

2024/08/12

上班族簡報日常的沙龍

數據分析｜只懂用長蛇IF或是VLOOKUP? 數據分類函數運用，製作圖表前先學好EXCEL數據梳理

商業簡報不僅僅是呈現數據，更需要深入瞭解數據分析及有效的工具運用。本文探討於Excel中使用不同函數來改善數據處理效率，包括IF、IFS、VLOOKUP、XLOOKUP及INDEX與MATCH的結合，幫助商業人士更好地從數據中提取洞見，助力業務增值，學習優化數據分析過程，讓您的商業簡報更具影響力。

#數據#簡報#商業簡報

2024/08/12

JayRay 的沙龍

【資料分析】資料分析起手式，理解數據並使用python找到資料間的關聯

在資料分析過程中，透過衡量變數之間的線性或非線性關係，能有效探索數據集，篩選出重要特徵，並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性，以及利用互資訊評估變數之間的依賴程度，幫助資料科學家在建模過程中選擇適當的變數，提升模型效果。

#數據#資訊#模型

2024/08/07

JayRay 的沙龍

【資料分析】資料分析起手式，理解數據並使用python找到資料間的關聯

在資料分析過程中，透過衡量變數之間的線性或非線性關係，能有效探索數據集，篩選出重要特徵，並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性，以及利用互資訊評估變數之間的依賴程度，幫助資料科學家在建模過程中選擇適當的變數，提升模型效果。

#數據#資訊#模型

2024/08/07

JayRay 的沙龍

【資料分析】python資料視覺化基礎操作語法彙整

Python資料視覺化在數據分析中扮演關鍵角色，透過視覺化捕捉數據模式、趨勢和異常，透過Matplotlib等工具創建專業圖表變相對簡單和高效。

#python#Matplotlib#資料分析

2024/08/03

JayRay 的沙龍

【資料分析】python資料視覺化基礎操作語法彙整

Python資料視覺化在數據分析中扮演關鍵角色，透過視覺化捕捉數據模式、趨勢和異常，透過Matplotlib等工具創建專業圖表變相對簡單和高效。

#python#Matplotlib#資料分析

2024/08/03

Claralk Chung的沙龍

統計數據，瀏覽超過6位數

在方格子這邊不少時間了。剛剛瀏覽一下數據統計，發現文章被瀏覽量超過六位數了，雖然以往不怎看這個數字統計，但是既然看到了，值得一書紀念。其實來這邊的初心是想有系統的把自己的文章集合一下，像是私淑的小學旅行、和孩子的互動等，以往都散落在不同的地點。而且經歷了許多平台的blog都因為平台收攤而

#十萬#統計數據#文友

2024/07/16

Claralk Chung的沙龍

統計數據，瀏覽超過6位數

在方格子這邊不少時間了。剛剛瀏覽一下數據統計，發現文章被瀏覽量超過六位數了，雖然以往不怎看這個數字統計，但是既然看到了，值得一書紀念。其實來這邊的初心是想有系統的把自己的文章集合一下，像是私淑的小學旅行、和孩子的互動等，以往都散落在不同的地點。而且經歷了許多平台的blog都因為平台收攤而

#十萬#統計數據#文友

2024/07/16

舒栗的理想生活

提升數字敏感度的秘訣：數據分析初學者必讀指南

數據分析是現代社會的核心技能，適用於各行各業。無論是在市場營銷、財務管理，還是產品開發中，數據分析都扮演著至關重要的角色。提升數據敏感度有助於提高分析的準確性和效率，使我們能夠迅速找到關鍵信息，進而做出明智的決策。本文將探討數據分析訓練方法，提供實用案例，幫助初學者快速掌握數據分析技術。

#數據分析#資料分析#數字敏感度

2024/06/10

舒栗的理想生活

提升數字敏感度的秘訣：數據分析初學者必讀指南

數據分析是現代社會的核心技能，適用於各行各業。無論是在市場營銷、財務管理，還是產品開發中，數據分析都扮演著至關重要的角色。提升數據敏感度有助於提高分析的準確性和效率，使我們能夠迅速找到關鍵信息，進而做出明智的決策。本文將探討數據分析訓練方法，提供實用案例，幫助初學者快速掌握數據分析技術。

#數據分析#資料分析#數字敏感度

2024/06/10

MINEBOOK掘冊的沙龍

《社會菁英必備的數學素養》: 你有數學素養嗎?

這本書的起源來自於疫情期間，作者以數學家的角度，在網路上發表文章，幫大眾解讀疫情的統計數字是什麼意思，我看完這本書以後不禁感嘆，如果我更早理解這些概念就好了。

2024/03/25

MINEBOOK掘冊的沙龍

《社會菁英必備的數學素養》: 你有數學素養嗎?

這本書的起源來自於疫情期間，作者以數學家的角度，在網路上發表文章，幫大眾解讀疫情的統計數字是什麼意思，我看完這本書以後不禁感嘆，如果我更早理解這些概念就好了。

2024/03/25

iFormosa TechWave

數據的魔法：揭秘分析與整合的藝術-Tableau

Tableau是一款數據視覺化工具，目的在於簡化數據分析和決策過程。通過直觀的可視化介面，讓人們無需編程也能進行數據探索和分析。支持多種數據源，包括Excel、SQL數據庫等，透過拖放操作創建圖表和儀表板，分享洞察見解。幫助使用者和組織更加數據驅動，優化決策和業務流程

#數據資料分析#AI#數據資料整合

2024/03/15

iFormosa TechWave

數據的魔法：揭秘分析與整合的藝術-Tableau

Tableau是一款數據視覺化工具，目的在於簡化數據分析和決策過程。通過直觀的可視化介面，讓人們無需編程也能進行數據探索和分析。支持多種數據源，包括Excel、SQL數據庫等，透過拖放操作創建圖表和儀表板，分享洞察見解。幫助使用者和組織更加數據驅動，優化決策和業務流程

#數據資料分析#AI#數據資料整合

2024/03/15

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News