統計學,指的就是搜集、整理、表現及分析資料的方法。
一般來說,當我們想要知道對於某件事,大眾的普遍想法時,我們可能會透過調查的方式,得到想要的答案。也就是說,我們可能透過問卷或者是電訪的方式,直接收集所要的母體資料。舉個例子來說,在總統選舉時,當侯選人舉辦政見發表會後,為了要暸解選民對侯選人所發表的政見的喜好程度時,在會後,會採用問卷或電訪的方式,暸解選民的態度。
但是,在收集到了這些資料後,要怎麼樣,才能把這些零散的資訊,整理成有用的資訊呢?這可就是一門很大的學問了。舉個例子來說,觀光系的同學,想要調查出年紀在30歲到35歲的上班族,每年花在出國旅行上的費用,大約有多少?以便做為畢業論文中行程計劃的依據。然而,要用什麼方法,才能知道年紀介30歲到35歲的上班族,每年花在出國旅行的費用,大約有多少呢?於是,同學們決定了要利用市場調查的方式,直接到在國際旅遊展中,發出問卷,以便得到介於30-35歲的旅遊消費者,各自都花費多少經費在出國遊玩中。
而在實際的以問卷的方式,得到資料後,我們可以將所收集到的資料,放置到Excel工作表中,再利用Excel中強大的分析工具,幫助我們整理所收集到的資訊。
統計資料依取得的方式,可以被分為原始資料及次級集資料等兩種。所謂原始資料,指的是由研究人員依照自己的研究目的去調查、觀察或實驗而獲得的資料,也就是一手取得的資料。
而次級資料,指的就是由他人所搜集、整理分析的資料。
在很多情況下,我們會利用問卷的方法,取得很多原始的資料。但在取得資料後,經由整理,才能讓資料呈現出他所代表的意義。如在上面的例子中,在同學們針對一百個參觀旅展的受訪者進行調查後,就必須將問卷的調查結果,透過整理,得到所要的答案。
首先,同學們將問卷調查的結果,分別的輸入工作表的儲存格中。而這些問卷調查出來的結果,我們則必須將他們編組、計次,才能讓資料呈現出具體的意義。在這個例子當中,我們可以看到所收集到的資料,分佈狀態由10,000~100,000不等,我們可以依數值的大小,加以分組整理成次數分配表,讓這些原始資料呈現出其較完整的意義。
這種將非類別性質資料(即具固定類別型態者)分為若干組數,並同時計算列示各組次數的統計表,我們可以把它稱為非類別資料的次數分配表。
要建立非類別資料的次數分配表,則必須經過求出全距、決定組數、決定組距、選擇上下限及各組組中點及計算各組次數等六個步驟:
所謂全距,指的就是樣本資料中的最大值,減去最小值,即為全距。求出全距的目的,在於讓您知道所有數值資料介於哪個範圍,並做為接下來分組的依據。
全距=最大值-最小值
在求出全距之後,接下來,我們必須為這些資料進行編組的工作,以便於看出資料的分佈情形及變化趨勢。
至於要如何組數的多寡,並沒有客觀的標準,組數太少,則表現出來的次數分配表將過於簡化,太多,則不容易看出其數值分佈的趨勢。所以您可以視資料的範圍與特性,評估需求,做出規劃。
所謂組距,指的就是每組之間的距離。當我們想要決定組距時,我們可以將全距除以組數,來找到一約略的數字,做為組距決定的標準。一般而言,為了方便計算,所決定的組距最好是2、5或10的倍數,在計算時,較為方便。所決定的每組組距,一定都要相等,也不要有開放組距(即沒有上、下限)。
組距上、下限的選擇,應由包含最小的數值開始,以組距建立組限,直到包含所有的觀察值為止。所選擇的組距上下限,也不宜採用複雜的數據,以免不利於往後的計算工作。
組中點,指的是各組上、下限的平均數。公式如下:
組中點=(組下限+組下限)/2
定義組距的目的,在於可分別將每個樣本都歸類到其應歸屬的類別當中。若用手動的方式計算時,我們可以採用「正」字劃記的方式,來進行計次。當然,若樣本數值太多的話,您可以依據下面的範例,利用Excel工作表中的函數,快速的做好計次的工作。
應用實例:應用Excel工作表整理資料
在這個範例中,我們要針對上述觀光系同學到旅展所搜集到的資料,進行整理,除了計算出最大值、最小值以求出組距外,我們還要製作出一份次數分配表。
選定E5儲存格位置,並使用滑鼠選取「公式Formula、函數Sigma」,選擇MAX函數後,選取儲存格範b2:b101,表示搜尋此儲存格範圍中的最大數值,並按下「確定」鍵。
最後,在E5儲存格中,您可以看到我們所求出的最大值:89763。
接著,我們在E6儲存格中,使用滑鼠選取「公式Formula、函數Sigma」選擇min函數。
接著,選取儲存格範圍b2:b101,表示搜尋此儲存格範圍中的最小值,最後按下「確定」鍵。
您就可以看到E6儲存格中,即為所搜集到的資料的最小值:1270。
最後,我們就可以求出全距為+E4-E5,答案為88493。
而在這個例子當中,由於觀察值為100個,所以我們打算將它分為10組,每組組距為10,000。所以,我們分別將組距寫入儲存格G3-G12儲存格中。
在F3-F12的儲存格範圍中,您可以看到我們分別輸入了10000、19999、…..99999等數值,其中G3儲存格中的數值10000代表1-10000的數值內容、而F4儲存格中的數值19999則表示10001-19999、G5儲存格中的數值29999則代表20001-29999….等,每組組距的標準,可依此方法類推出來。
而在分別決定好組距後,最後,我們必須使用Frequency()函數,來進行計次的工作。您可以依照以下的方法,進行操作。
說明
Frequency()
Frequency()函數的功能,在於計算某一個範圍內的值出現的次數。如老師在計算學生的成績時,就可以用Frequency() 來計算某些範圍內的考試成績各有幾個人。但要注意的是,FREQUENCY會傳回陣列數值,因此必須輸入陣列公式。
語法
FREQUENCY (data_array,bins_array)
Data_array代表所要進行計次工作的來源數值資料。如計算所有學生成績,所有的學生成績資料,即為此資料範圍必須載入的內容。
Bins_array 代表區間的儲存格範圍參照位址。如要將學生分數分類為以10分為區間時的所有區間內容。
使用滑鼠選擇G3:G12的儲存格範圍位置。
在資料編輯列中輸入公式「=FREQUENCY(B2:B101,G3:G12)」(如下圖)。
2.在輸入完畢公式後,請按下組合鍵Ctrl-Shift-Enter,即可得到指定範圍的計數內容。
當我們分別計算出每個分類中的次數分配資料後,若我們想要知道某一組數值在整體數值中的水準表現,我們就必須計算出各組的累加次數,而您可以採用的方法為由上而下的累加而求出的以下累加次數及由最後一組反向累加的以上累加等兩種方法。
以下加總次數可以符號Cfi表示,指小於及等於第I組的次數總和,加總方式可以下列公式表示:
Cfi=f1+f2+…fi
以上累加次數,則是指大於及等於I組的次數和,可以符號Dfi表示,加總公式如下:
Dfi=fi+fi+1+…..+fk
應用實例:實做以下累加
在本範例中,我們將使用先前所製作的次數分配表,來進行以下累加的工作。
首先,將先前所求出的次數分配表數值及分組內容,整理到另一張新的工作表中,並製做出一名為「以下累加次數分配」的欄位。
2-12
在D3儲存格中輸入公式「=+C3」,表示第一組資料的加總。
接著,在D4儲存格中輸入公式「=+C3+C4」,表示針對第一組資料及第二組資料進行加總。
以此方式分別做出每組次的次數加總,可以得到如下的結果:
在為搜集到的統計資料做好歸類與整理後,要讓這些數值能明確的表達出它所具有的意義,是進行統計的最終目的。此時,我們就可以利用統計圖表,來表達這群數字所代表的意義。
利用圖形來表現統計數字,通常較使用數字來表現統計數字,來的直覺及明確。如在下圖中,為環球旅行社為每一季每一個旅遊線的產品收入統計,數字明確,但要得出如季成長趨勢、各線佔總收入比例…等進一步的資訊,可就得花費另一番工夫了。
但我們把上述的數字,利用圖表來呈現時,您就可以不費功夫的就發現,哪一條旅遊線的銷售情況最佳,哪一條旅遊線尚待加強…等資訊。
如在下面的圖中,您可以看到,我們將上述的數字,利用圖表的方式呈現出來,很快的就可以比較出每一條旅遊線,在2008年的總銷售額。
在統計學中,常常會使用不同的圖表,來呈現不同的資訊。在使用時,您可以依據自己的需求,讓所計算出來的統計數字更加的有意義。
折線圖
當我們想要比較出一段時間內,數值的變化情況,或者是想要知道數值所呈現的趨勢走向,我們可以使用折線圖,明確的看出數值的走向。
承接上面的例子,我們可以看到,若我們想要知道美西線在每一季的收入狀況,利用折線圖就可以明顯的看出,每一季的淡旺季趨勢。
圓餅圖
若我們的統計數值必須以「比例」方式呈現時,我們就可以使用到圓餅圖。圖餅圖表現數值的方式,是以比例的方式呈現,所有的組數加起來,總和為100%。
承接上面環球旅行社一例,當旅行社的老闆想要知道美西線佔總銷售量的多少比例時,即可使用圓餅圖來表現。
直條圖
當您所整理出來的數字,主要要表現的主題為「次數分佈」的情況時,我們可以使用長條圖,來表現次數分佈的情況。
就如我們最早所提出來的觀光系同學,針對旅遊展所進行的消費行為調查,在製作完成次數分配表後,我們就可以將次數分配表的數值,製作成為長條圖,讓所搜集來的數字容易閱讀。