統計資料的整理及表現

更新於 2024/07/11閱讀時間約 4 分鐘

2-1 取得統計資料

統計學,指的就是搜集、整理、表現及分析資料的方法。

一般來說,當我們想要知道對於某件事,大眾的普遍想法時,我們可能會透過調查的方式,得到想要的答案。也就是說,我們可能透過問卷或者是電訪的方式,直接收集所要的母體資料。舉個例子來說,在總統選舉時,當侯選人舉辦政見發表會後,為了要暸解選民對侯選人所發表的政見的喜好程度時,在會後,會採用問卷或電訪的方式,暸解選民的態度。

但是,在收集到了這些資料後,要怎麼樣,才能把這些零散的資訊,整理成有用的資訊呢?這可就是一門很大的學問了。舉個例子來說,觀光系的同學,想要調查出年紀在30歲到35歲的上班族,每年花在出國旅行上的費用,大約有多少?以便做為畢業論文中行程計劃的依據。然而,要用什麼方法,才能知道年紀介30歲到35歲的上班族,每年花在出國旅行的費用,大約有多少呢?於是,同學們決定了要利用市場調查的方式,直接到在國際旅遊展中,發出問卷,以便得到介於30-35歲的旅遊消費者,各自都花費多少經費在出國遊玩中。

而在實際的以問卷的方式,得到資料後,我們可以將所收集到的資料,放置到Excel工作表中,再利用Excel中強大的分析工具,幫助我們整理所收集到的資訊。

統計資料依取得的方式,可以被分為原始資料及次級集資料等兩種。所謂原始資料,指的是由研究人員依照自己的研究目的去調查、觀察或實驗而獲得的資料,也就是一手取得的資料。

而次級資料,指的就是由他人所搜集、整理分析的資料。


2-2 整理統計資料與編組

在很多情況下,我們會利用問卷的方法,取得很多原始的資料。但在取得資料後,經由整理,才能讓資料呈現出他所代表的意義。如在上面的例子中,在同學們針對一百個參觀旅展的受訪者進行調查後,就必須將問卷的調查結果,透過整理,得到所要的答案。

首先,同學們將問卷調查的結果,分別的輸入工作表的儲存格中。而這些問卷調查出來的結果,我們則必須將他們編組、計次,才能讓資料呈現出具體的意義。在這個例子當中,我們可以看到所收集到的資料,分佈狀態由10,000~100,000不等,我們可以依數值的大小,加以分組整理成次數分配表,讓這些原始資料呈現出其較完整的意義。

這種將非類別性質資料(即具固定類別型態者)分為若干組數,並同時計算列示各組次數的統計表,我們可以把它稱為非類別資料的次數分配表

要建立非類別資料的次數分配表,則必須經過求出全距、決定組數、決定組距、選擇上下限及各組組中點及計算各組次數等六個步驟:

求出全距

所謂全距,指的就是樣本資料中的最大值,減去最小值,即為全距。求出全距的目的,在於讓您知道所有數值資料介於哪個範圍,並做為接下來分組的依據。

全距=最大值-最小值

決定組數

在求出全距之後,接下來,我們必須為這些資料進行編組的工作,以便於看出資料的分佈情形及變化趨勢。

至於要如何組數的多寡,並沒有客觀的標準,組數太少,則表現出來的次數分配表將過於簡化,太多,則不容易看出其數值分佈的趨勢。所以您可以視資料的範圍與特性,評估需求,做出規劃。

決定組距

所謂組距,指的就是每組之間的距離。當我們想要決定組距時,我們可以將全距除以組數,來找到一約略的數字,做為組距決定的標準。一般而言,為了方便計算,所決定的組距最好是2、5或10的倍數,在計算時,較為方便。所決定的每組組距,一定都要相等,也不要有開放組距(即沒有上、下限)。

組距上、下限的選擇

組距上、下限的選擇,應由包含最小的數值開始,以組距建立組限,直到包含所有的觀察值為止。所選擇的組距上下限,也不宜採用複雜的數據,以免不利於往後的計算工作。

計算組中點

組中點,指的是各組上、下限的平均數。公式如下:

組中點=(組下限+組下限)/2

計算各組的次數

定義組距的目的,在於可分別將每個樣本都歸類到其應歸屬的類別當中。若用手動的方式計算時,我們可以採用「正」字劃記的方式,來進行計次。當然,若樣本數值太多的話,您可以依據下面的範例,利用Excel工作表中的函數,快速的做好計次的工作。


應用實例:應用Excel工作表整理資料

在這個範例中,我們要針對上述觀光系同學到旅展所搜集到的資料,進行整理,除了計算出最大值、最小值以求出組距外,我們還要製作出一份次數分配表。


選定E5儲存格位置,並使用滑鼠選取「公式Formula、函數Sigma」,選擇MAX函數後,選取儲存格範b2:b101,表示搜尋此儲存格範圍中的最大數值,並按下「確定」鍵。


最後,在E5儲存格中,您可以看到我們所求出的最大值:89763。

接著,我們在E6儲存格中,使用滑鼠選取「公式Formula、函數Sigma」選擇min函數。


接著,選取儲存格範圍b2:b101,表示搜尋此儲存格範圍中的最小值,最後按下「確定」鍵。

您就可以看到E6儲存格中,即為所搜集到的資料的最小值:1270。

最後,我們就可以求出全距為+E4-E5,答案為88493。



而在這個例子當中,由於觀察值為100個,所以我們打算將它分為10組,每組組距為10,000。所以,我們分別將組距寫入儲存格G3-G12儲存格中。

raw-image



在F3-F12的儲存格範圍中,您可以看到我們分別輸入了10000、19999、…..99999等數值,其中G3儲存格中的數值10000代表1-10000的數值內容、而F4儲存格中的數值19999則表示10001-19999、G5儲存格中的數值29999則代表20001-29999….等,每組組距的標準,可依此方法類推出來。

而在分別決定好組距後,最後,我們必須使用Frequency()函數,來進行計次的工作。您可以依照以下的方法,進行操作。

說明

Frequency()

Frequency()函數的功能,在於計算某一個範圍內的值出現的次數。如老師在計算學生的成績時,就可以用Frequency() 來計算某些範圍內的考試成績各有幾個人。但要注意的是,FREQUENCY會傳回陣列數值,因此必須輸入陣列公式。

語法

FREQUENCY (data_array,bins_array)

Data_array代表所要進行計次工作的來源數值資料。如計算所有學生成績,所有的學生成績資料,即為此資料範圍必須載入的內容。

Bins_array 代表區間的儲存格範圍參照位址。如要將學生分數分類為以10分為區間時的所有區間內容。

使用滑鼠選擇G3:G12的儲存格範圍位置。

在資料編輯列中輸入公式「=FREQUENCY(B2:B101,G3:G12)」(如下圖)。


raw-image


2.在輸入完畢公式後,請按下組合鍵Ctrl-Shift-Enter,即可得到指定範圍的計數內容。


累加次數分配

當我們分別計算出每個分類中的次數分配資料後,若我們想要知道某一組數值在整體數值中的水準表現,我們就必須計算出各組的累加次數,而您可以採用的方法為由上而下的累加而求出的以下累加次數及由最後一組反向累加的以上累加等兩種方法。

以下加總次數可以符號Cfi表示,指小於及等於第I組的次數總和,加總方式可以下列公式表示:

Cfi=f1+f2+…fi


以上累加次數,則是指大於及等於I組的次數和,可以符號Dfi表示,加總公式如下:

Dfi=fi+fi+1+…..+fk


應用實例:實做以下累加

在本範例中,我們將使用先前所製作的次數分配表,來進行以下累加的工作。

首先,將先前所求出的次數分配表數值及分組內容,整理到另一張新的工作表中,並製做出一名為「以下累加次數分配」的欄位。


2-12

在D3儲存格中輸入公式「=+C3」,表示第一組資料的加總。

接著,在D4儲存格中輸入公式「=+C3+C4」,表示針對第一組資料及第二組資料進行加總。

以此方式分別做出每組次的次數加總,可以得到如下的結果:

raw-image


2-3 統計資料的呈現

在為搜集到的統計資料做好歸類與整理後,要讓這些數值能明確的表達出它所具有的意義,是進行統計的最終目的。此時,我們就可以利用統計圖表,來表達這群數字所代表的意義。

利用圖形來表現統計數字,通常較使用數字來表現統計數字,來的直覺及明確。如在下圖中,為環球旅行社為每一季每一個旅遊線的產品收入統計,數字明確,但要得出如季成長趨勢、各線佔總收入比例…等進一步的資訊,可就得花費另一番工夫了。


但我們把上述的數字,利用圖表來呈現時,您就可以不費功夫的就發現,哪一條旅遊線的銷售情況最佳,哪一條旅遊線尚待加強…等資訊。

如在下面的圖中,您可以看到,我們將上述的數字,利用圖表的方式呈現出來,很快的就可以比較出每一條旅遊線,在2008年的總銷售額。

在統計學中,常常會使用不同的圖表,來呈現不同的資訊。在使用時,您可以依據自己的需求,讓所計算出來的統計數字更加的有意義。

折線圖

當我們想要比較出一段時間內,數值的變化情況,或者是想要知道數值所呈現的趨勢走向,我們可以使用折線圖,明確的看出數值的走向。

承接上面的例子,我們可以看到,若我們想要知道美西線在每一季的收入狀況,利用折線圖就可以明顯的看出,每一季的淡旺季趨勢。

raw-image


圓餅圖

若我們的統計數值必須以「比例」方式呈現時,我們就可以使用到圓餅圖。圖餅圖表現數值的方式,是以比例的方式呈現,所有的組數加起來,總和為100%。

承接上面環球旅行社一例,當旅行社的老闆想要知道美西線佔總銷售量的多少比例時,即可使用圓餅圖來表現。

raw-image


直條圖

當您所整理出來的數字,主要要表現的主題為「次數分佈」的情況時,我們可以使用長條圖,來表現次數分佈的情況。

就如我們最早所提出來的觀光系同學,針對旅遊展所進行的消費行為調查,在製作完成次數分配表後,我們就可以將次數分配表的數值,製作成為長條圖,讓所搜集來的數字容易閱讀。

raw-image



    avatar-img
    2會員
    5內容數
    大家好,我是一個電腦書的作者,曾經出過很多紙本的書。並且成為大學的學生用書。但由於軟體更新速度太快及媒材的問題,電腦書用紙本呈現有點不容易學會。在網路上發現這個平台,決定把書都搬上來。希望大家可以學會並獲益。
    留言0
    查看全部
    avatar-img
    發表第一個留言支持創作者!
    Brenda Wang的沙龍 的其他內容
    資料統計在職場及學術的領域中應用相當廣範。 要如何應用Excel 來整理諸如問卷、銷售及進一步分析這些數字呢?這邊我們將Excel 在統計上的應用羅列於此,希望能對您的工作有所幫助。
    資料統計在職場及學術的領域中應用相當廣範。 要如何應用Excel 來整理諸如問卷、銷售及進一步分析這些數字呢?這邊我們將Excel 在統計上的應用羅列於此,希望能對您的工作有所幫助。
    你可能也想看
    Google News 追蹤
    Thumbnail
    *合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
    Thumbnail
    職場中相信許多人都很喜歡喝飲料,時間一到公司就會開始問今天要訂XXX快來登記,喝飲料是很爽快沒錯,但是定飲料前的動作就... 看到這樣的訂購清單,心想:訂錯或少訂又要被噱一頓了😫 這集分享幾種方式超級快速的統計計資料,不用再怕飲料數量點錯了 UNIQUE+COUNTIF(365版本限定)
    Thumbnail
    紅色良品(等級0)- 資訊源索引 功能:將書籍和課程轉化為Obsidian中可索引的筆記。這種做法可以幫助你更快地從大量文本中找到需要的資訊。 藍色良品(等級1)- 資訊塊 功能:將書籍或課程中的具體內容段落轉化為Obsidian中可索引的筆記。這樣做可以讓你對特定知識點有更深
    「你們會收怎麼樣的學生當博士生?」 一個復旦大學數學系三年級的學生,在跟我的第二次咪挺問了這個問題。 當時與這個學生描述了很多。 不過一言以蔽之,就是「有自己意見,而且有技術底氣的學生」。 同時有自己意見,又有技術底氣的人,其實相當稀少。 根據我在台大時期的觀察經驗,
    Thumbnail
    資料的統合 在程式設計中,其他人通常關心是否注意到執行的細節。作為程式設計師,主要應該關心的是程式的表現,但往往忽略了很多細節,這些細節可以決定程式的好壞。程式的好壞很大程度上取決於資料的統合,也就是資料是否被正規化。 不同類型的資料在系統中呈現一致 正規化可能對一些人來說聽起來很抽象,有些人
    Thumbnail
    今年2023年,我經歷了許多重要的事情。首先,在臉書的一個組裡進行研究合作,這是一個重要的開始。隨後,我參加了ICORPS計畫,進行了顧客發現的工作。在研究方面,我與其他博士後研究人員合作,並指導了多名碩士生完成他們的論文。此外,我還帶領暑期研究實習生進行了基本的計算和研究工作。
    Thumbnail
    最近財政部公布了110年度綜合所得稅申報初步核定統計資料,很多媒體也發了很多這類地區所得排名新聞,我也去找了財政資訊中心網站找了相關資料,裡面除了平均數還有第一分位數、中位數、第三分位數、標準差能讓我們對資料評估的更正確。 平均數(Mean)是一組數據之和,除以這組數據個數,目的是表徵數據集中趨勢。
    Thumbnail
    多層次資料問題指的是在社會科學研究中,我們經常透過問卷以班級或學校為單位進行調查,此時收集到的資料很可能存在著多個層次的結構。這意味著我們觀察到的個體或單位被分類或分群到不同的層次中。本文將簡介此用傳統統計分析多層次資料結構的問題和限制
    Thumbnail
    BMJ小小統計問題(2):探索連續性變項資料 British Medical Journal,英國醫學期刊(簡稱 BMJ),在醫學研究領域享有盛名。怎樣開始進行一個連續性變項資料的探索呢?請看本次的小小統計問題(2)
    Thumbnail
    在前一篇文章:【GIS】電信信令人口統計資料分析(一):從平日與假日的活動人口差異看城市特性,我們用電信信令的人口統計資料看到了,其實有些地區在不同時段的活動人口數量變動很大。而台灣人對於便利商店的存在已經到了理所當然的程度了,所以我就在想,那如果要在便利商店,例如統一超商裡工作的話
    Thumbnail
    內政部也終於在今年(110年)7月8日釋出109年的全國電信信令人口統計資料。有了平、假日裡不同時段的電信信令判斷出的活動人口資料,我們就可以來看看不同鄉鎮市區在各時段的活動人口差異。為了方便解釋,這裡會用不同時段的人口數相除來做為說明。
    Thumbnail
    *合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
    Thumbnail
    職場中相信許多人都很喜歡喝飲料,時間一到公司就會開始問今天要訂XXX快來登記,喝飲料是很爽快沒錯,但是定飲料前的動作就... 看到這樣的訂購清單,心想:訂錯或少訂又要被噱一頓了😫 這集分享幾種方式超級快速的統計計資料,不用再怕飲料數量點錯了 UNIQUE+COUNTIF(365版本限定)
    Thumbnail
    紅色良品(等級0)- 資訊源索引 功能:將書籍和課程轉化為Obsidian中可索引的筆記。這種做法可以幫助你更快地從大量文本中找到需要的資訊。 藍色良品(等級1)- 資訊塊 功能:將書籍或課程中的具體內容段落轉化為Obsidian中可索引的筆記。這樣做可以讓你對特定知識點有更深
    「你們會收怎麼樣的學生當博士生?」 一個復旦大學數學系三年級的學生,在跟我的第二次咪挺問了這個問題。 當時與這個學生描述了很多。 不過一言以蔽之,就是「有自己意見,而且有技術底氣的學生」。 同時有自己意見,又有技術底氣的人,其實相當稀少。 根據我在台大時期的觀察經驗,
    Thumbnail
    資料的統合 在程式設計中,其他人通常關心是否注意到執行的細節。作為程式設計師,主要應該關心的是程式的表現,但往往忽略了很多細節,這些細節可以決定程式的好壞。程式的好壞很大程度上取決於資料的統合,也就是資料是否被正規化。 不同類型的資料在系統中呈現一致 正規化可能對一些人來說聽起來很抽象,有些人
    Thumbnail
    今年2023年,我經歷了許多重要的事情。首先,在臉書的一個組裡進行研究合作,這是一個重要的開始。隨後,我參加了ICORPS計畫,進行了顧客發現的工作。在研究方面,我與其他博士後研究人員合作,並指導了多名碩士生完成他們的論文。此外,我還帶領暑期研究實習生進行了基本的計算和研究工作。
    Thumbnail
    最近財政部公布了110年度綜合所得稅申報初步核定統計資料,很多媒體也發了很多這類地區所得排名新聞,我也去找了財政資訊中心網站找了相關資料,裡面除了平均數還有第一分位數、中位數、第三分位數、標準差能讓我們對資料評估的更正確。 平均數(Mean)是一組數據之和,除以這組數據個數,目的是表徵數據集中趨勢。
    Thumbnail
    多層次資料問題指的是在社會科學研究中,我們經常透過問卷以班級或學校為單位進行調查,此時收集到的資料很可能存在著多個層次的結構。這意味著我們觀察到的個體或單位被分類或分群到不同的層次中。本文將簡介此用傳統統計分析多層次資料結構的問題和限制
    Thumbnail
    BMJ小小統計問題(2):探索連續性變項資料 British Medical Journal,英國醫學期刊(簡稱 BMJ),在醫學研究領域享有盛名。怎樣開始進行一個連續性變項資料的探索呢?請看本次的小小統計問題(2)
    Thumbnail
    在前一篇文章:【GIS】電信信令人口統計資料分析(一):從平日與假日的活動人口差異看城市特性,我們用電信信令的人口統計資料看到了,其實有些地區在不同時段的活動人口數量變動很大。而台灣人對於便利商店的存在已經到了理所當然的程度了,所以我就在想,那如果要在便利商店,例如統一超商裡工作的話
    Thumbnail
    內政部也終於在今年(110年)7月8日釋出109年的全國電信信令人口統計資料。有了平、假日裡不同時段的電信信令判斷出的活動人口資料,我們就可以來看看不同鄉鎮市區在各時段的活動人口差異。為了方便解釋,這裡會用不同時段的人口數相除來做為說明。