統計學的知識與運用─第一堂

2024/01/10閱讀時間約 17 分鐘
raw-image

第一堂學生創新團隊的點評

我們的統計在社會科學裡面,它到底是怎麼樣產生的,我們今天要算這個統計學,要送統計,他們本身要有Raw data,這樣才有辦法進行運用,如:我們要怎麼算平均身高如下是:

  「全部身高」除以「人數」等於 每個人幾公分 

所以我們要設計如何用電腦計算 ,要「input」 才會有「output」,「問卷」就好像就是蒐集 Raw Data 的工具,在社會科學的工具,常常要思考「問卷是什麼?」在每一個學期末都會對授課老師去做教學評量 ,這時會有問題出「同學有沒有填過教學評量的嗎?」或是「同學修了幾門課就可以對老師做教學評量嗎?」

當然結果不管是「寫好」還是「寫壞」,大學主體是「學生」,如果沒有學生大學就只是「研究機構」,所以我們人有一種傾向,在填寫問卷時,覺得很好的不一定會寫,如果很爛的一定會抱怨,過去我們是否曾間在辦公室中有位常常在抱怨,很多時候抱怨可能前後矛盾,所以當我們在設計問卷,採取這個研究工具,施測學生對老師的滿意度,這就是「統計」,所以我們在設計問題時,我們就需要讓大家知道你做什麼題目呢?其實可「選擇性保留」,設計有幾個變數,也許有些受試者不需要知道這麼詳細,我再改成簡單的學術研究,受試者其實不需要清楚知道 ,因為他只是填答問卷的人而已。

「開場白」的重要性

對筆者來說,「開場白」 有必要嗎?如果沒有這麼寫,一方面寫的人會不知道目的,另外就是寫清楚才會有正當性,留下「知道」,填下來的人才會覺得設計者是「負責任」的人,這表面看起來像學術問卷,表面效度就像表面功夫,要有「公信力」,這樣才可以讓受試者好好思考回答,他就不會胡亂作答,回答假資料,他回答不好資料,「原始資料不好」,統計技術再好,就很難分析好的資料,說到這裡筆者想要問大家「什麼是表面效度? 為什麼要卷頭語?」,所以「卷頭語」如同客套話,當我們說完客氣話後,即可就開始做個人基本資料。

那基本資料包括哪些呢?「年齡」、「性別」、「年資」、 個人基本資料,這些在統計學上叫做「人口統計」,為何他叫做「人口變數」?來自於我國的「人口普查」,一般而言,內政部在每十年會做一次人口普查,了解我們國家有多少人?有多少小孩?

而「性別」、「年齡」都是內涵,不需要和國家一樣地毯式的搜查,所以統計學告訴你,只要詢問你需要的資料即可,所以問性別很基本,不過不一定都要問,也不是所有題目都要問年齡,那為何要問?目的要找出在題目下的差異性的比較。

舉例來說,我想要知道大學學生對學校滿意度,或許就不用知道「性別」,之前我們設計問題可以要了解全班的身高,那就不太需要「性別」和「年齡」,不過如果我們要側身高,你唯一知道就只有身高,其他的部分就不用設計。

因應題目設計問題

如果我們要了解學校的滿意度,「學校滿意度」就是查出學生對於學校的滿意度進行統計即可,故把題目修正一下,我想知道全班男同學的「平均身高」,與全班女同學的「平均身高」,差距多少,這個問題是不是就需要性別的資訊了?我們需要男生一堆、女生一堆來做比較。

因我目前在XX大學工作,如果我今天想要了解,XX大學的學生對於學校滿意度,會不會因應年級有不同看法,如:碩一、碩二的學生。他們對於學校的看法有沒有不一樣,此時我就必須知道每個同學他是幾年級的學生,所以我就需要基本資訊了。

差異性的比較

如果你未來的問題,有要做差異性的比較,想了解「男生」、「女生」有沒有不同、「老」、「中」、「青」也沒有不同,「年資」有沒有不同,抑或是「婚姻狀況」。而對於某些事情的看法,「已婚」的人和「未婚」的人對於一件事情有可能不同,如有想要這樣分析的手段,那你就必須問,因為你沒有問你就會不知道 ,你只會得到一團數字你分不開,如果你有設計,就可以知道哪一團是男生、哪一團是女生。

你一定要問,最後我們才能區別,分成「兩堆」、分成「三堆」、分成「四堆」,所以這些「基本資料」,他並不是「深家調查」,而是根據你的研究調查的目的,你才加以去問他的基本資料,如果你真的不太需要這樣的基本資料,那就不要問。再來,例如:連血型、星座都問,很多時候沒有不必要,設計問卷不要為了問而問?

人口統計變數

上物這些基本資料,我們就稱為「人口統計變數」。人口統計變數到底要問哪些呢?   其實是按照你的研究目的而定,並不是隨便問的,那繼續介紹內涵,裡面如:「性別」, 我們的性別現在分成幾種 ,以「生理性別」來說,成兩種性別。大致上當然我們現在有一些心理的問題,他可能是生理上是男生不過心理上女生,或是生理女生不過心理上的是男生,在性別上是可以切分的。

但畢竟上在生理出生後區分性別,所以大概會用兩種,除非就是你今天做的東西是「跨性別研究」,例如:做「多元成家」的研究,做「同志」之間的研究,那當然很可能在性別上面多幾個選項。不過若我們今天的問題為簡單「行銷調查」,抑或者是管理學的研究,我們性別做這兩種就可以了。那這種性別不是「男生」就是「女生」,有沒有其他的可能性,在「生理上」或是「心理上」,基本上沒有其他的可能性,就是兩個選項 ,這兩種選項我們給他一個名稱。  

其他例子

我們多舉幾個例子好了,例如說:「婚姻狀況」,婚姻狀況為「已婚」、「未婚」,看有沒有其他的可能性,如果你今天有需要這些狀態的人回答,那你就要給他足夠的選項   ,如:「同居」,有些人知道離過婚,像是「家庭研究」需要知道婚姻狀況,和家庭經驗,基本上一個人只會有一個狀況,抑或是說至少你在填答問卷只有一個狀況,例如:職業,這邊的選項要多要少,要看研究者自己需求,有些人希望分得很細,如:把「內政部」、「經濟部」、「教育部」等等的所有分類,全部都設計進來,因為他想要做與職業有關的調查 ,如果你只是要初淺的劃分,如:「金融業、餐飲業、製造業。」

「名義尺度」為何

或許你就可以大略的分類,不用分得很細,那筆者想要詮釋什麼?筆者想強調的為「很明確的選項」,我們給他一個名詞,所謂的「名義尺度」或是「類別尺度」或是「名義變數」或是「類別變數」。這樣的解讀是什麼意思,什麼叫做「名義」,什麼叫做「類別」,其實很白話了,其實我今天的選項會歸類在某一類別, 絕對沒有模糊的空間,例如說「性別」, 男生或女生有沒有其它可能性,如果以生理上來說,沒有其它可能性了,可見他是非黑即白的,也就是說,你落在某個選項上,他是沒有其他的「模糊空間」,我們就稱為「名義尺度」或是「類別尺度」、「名義變數」或較為「類別變數」   這樣的意思 ,意味著假設你是「碩一」、「碩二」、「碩三」以上,你有沒有可能舉兩次手,在這個瞬間是不可能的。意味著你是幾年級來說,這也是屬於「名義尺度」的。

再來,你是住在「台北市」的人,還是「新北市」的人,還是住在「台中市」的人或是其它地區的人 ,基本上也是「名義尺度」沒有任何模糊的空間,當你的選項沒有模糊空間時,我們就稱為「名義尺度」和「類別變數」。這樣有沒有問題,也就是說「名義尺度」。

他可以算出「正整數」,例如說:碩一有五位、碩二為六位,他是不會有小數點的,這樣子可以接受嗎?例如:說我們班上有幾位男生?有幾位女生?都是正整數。

什麼是自然數?

「自然數」它不會有任何的模糊空間,如:「年齡」可以設計一個填充題,一方面年齡問起有點敏感,對女生來說 ,你現在心裡面想一下幾歲,你心裡面知道自己幾歲 ,那你填歲數時,假設我回收時,我會得到幾個答案,以碩士班來說,筆者就讀時年齡都不一樣   有人寫28歲,有人23歲。假設問「身高」,身高幾公分?有人寫190公分,有人寫185公分,你填入你的身高,如果有人填了180.5CM,180.5公分就是比180公分多0.5公分,這時我們要思考的是我問的不是有沒有意義,而是讓我們自己思考有無「顯著性」,以身高來說,當然是有意義,你自己的身高當然是你自己的身高啊,非常明確,你不需要與他人做比較,或許在統計上沒有顯著性,不過當下我不是在問你,有沒有顯著性,而是問你從小長到大,你越來越高,你今天從150公分長到 160公分,長到180cm,請問你是每天長一公分,還是慢慢地持續的長,長到171公分,中間要經過很多小數點,正式長上去的,應該都會經歷,那些小數點應該會有,所以那些小數點是有意義的。

什麼是連續變數?

我馬上想到的是「體重」,我們設計「填充題」讓你去做回答的時候,我們稱為「連續變數」,continue「連續變數」, 在應用統計學中,了解什麼是「名義尺度」?什麼是「連續變數」,年齡是「連續變數」、身高也是「連續變數」,像「長度」、「寬度」、「面積」、「體積」,這些是不是連續變數,抑或是要量教室佔了幾坪,買25坪和買25.5坪的房子會是一樣嗎?

你會說沒差那0.5坪嗎?那0.5坪不要算?筆者認為在台北市多那0.5坪,好像就可以多幾十萬,甚至「百萬」或是「上千萬」都有可能,今天你要賣房子時,量出幾坪「40.3坪」,筆者認為若以「房屋仲介」,那0.3坪就不要算了,不可能,可差幾十萬,我還是要算進去,所以給筆者給你幾個原則, 如果你發現有一個東西,它的小數點是有意義的  那它就是連續變數, 如果他的小數點是沒有意義的,或者不知道是什麼東西的,那基本上它就是「名義尺度」。

例如:過去我們在學校上課時,以我們大學班級及系所來看,班上可以算出有幾位男同學,和幾位女同學 ,假設有19位男生、18位女生,那如果說這樣的話,加起來是多少人?假設35人,所以男生女生平均起來,「18.5人」這個數字就沒有意義,因為基本上人頭, 就是一位、兩位、三位、四位,所以算出的118.5人,它就定能不能算呢?它還是會算出這個答案,不過你不曉得這個答案意義。若不太了解筆者過去班級,根據我們的性別平均,一種性別有18.5人,這種話我說不太出來,我們班上有19位男生、18位女生,所以班上平均有18.5人,這就沒有意義。但是若你今天發現滿意度,如:「忠誠度」抑或是「購買意願」,對學校同不同意,它都是有小數點無限切割的可能性,那它就是「連續變數」。

受訪者的立場

在問卷上面看問卷的題目,在基本資料問完後,「人口統計變數」,接下來設計一些題目,「題項」就是問受試者,如:對於本身任職的公司是好還是不好?舉例:我們美術館在社會中有很高的評價?請作答那受試者,若你是館員,你就可以想想,你所任職的美術館是不是有很高的評價,你覺得美術館有沒有很高的評價?有沒有正確答案?「有沒有」就算我與你在同一家美術館,有沒有正確答案。

筆者認為評價是不相同的,在過去我與同事都在美術館上班,不過我們對於美術館的認同感卻是截然不同,每位館員心理對於美術館的評價不同,不見得有很高的評價, 不一定嗎?也許有人覺得還好啊?我們美術館還好啊?有些人標準很嚴格啊,評價沒有那麼高 ,所以後面在設計我們同意程度的選項,程度就是degree,從低到高,當然你也可以把選項名稱寫下來,一代表「非常不同意」、二代表「不同意」、三代表「普通」、四代表「同意」、五代表「非常同意」。

李克特五點亮表

你也可寫從低到高,低就是分數少的,高就是分數多的,你也可以這樣做,假設說:「   我們美術館在社會中有很高的評價,這一題我們來做筆者給他四分、第二題我能夠成為美術館的一員是榮耀的,我覺得不錯是很榮耀的一件事情,我就把五分勾起來,我們的美術館是被認為最好的機構之一,我覺得沒有錯,我真的覺得在美術館界,我們是非常棒的,我就選四分。我們就先寫前三題,假設如果你心裡面是什麼就寫什麼?這沒有標準答案,就好像以前在學校的期末時,學生幫老師在填答教學評量時,學生覺得老師教得好不好,有沒有按時授課抑或是有沒有按表抄課,有沒有符合「教學目標」,對於那每位學生,每位同學都可想它所認為的東西。

那筆者舉個例子,假設只有三題,第一題得到了四分、第二題得到了五分、第三題得到了四分,所以十三分是總分,平均為 4.333,這裡的0.33有沒有意義。當然有意義。若我今天回答為非常同意,三個五分, 這樣加起來是十五分分,平均是五分,所以五分和4.333就是不一樣,所以五分的中間,它的小數點是可以無限切割的,有些人可能回答二,有些人可能回答三,所以平均數會不一樣,所以這邊小數點拿來比大小是有意義的,這些都是「連續變數」的概念,所以在學應用統計學時,要學習把這些簡單的觀念  慢慢地把他抓起來,事實上在我們生活裡面,用到統計並不複雜,它是很簡單的。

連續變數與名義變數

剛才美術館機構認同填完後,現在問的是你對美術館的承諾,美術館承諾在組織行為裡面代表的是館員對於美術館所任職的工作,所依附的強度,就是你願不願意對這家美術館有承諾,才代表你會不會為它努力,留下來或是依附意願,這樣稱為「機構承諾」,   那同樣的這些題目也是因人而異,也些人覺得很棒它可能勾五,也些人覺得還好它可以勾「二」或「三」。再來是「留職意願」,「好」你留下美術館的想法是什麼?這些題目只是舉例而已,上述問題的形式都是「連續變數」,所以你後面有看到掛尺度的「一」到「五」或是「一」到「七」,「非常同意」到「非常不同意」都是屬於連續變數,而「性別」、「年齡」、「行業」、「居住地」都是「名義尺度」。 

接下來要到我們重頭戲,閱讀者到這裡你可能累了,想說為何一開始不說重頭戲呢?筆者認為一開始講重頭戲,或許對於一般人來說可能不太清楚,藉由將理論生活化,所以筆者先鋪梗,就像我們去國家戲劇廳看戲,表演者要帶動劇情的起伏,才能有高潮迭起,打個岔題,記得我在博士班上過朱宗慶老師的課程,他說到當時統計發現到影響參觀者的原因,主要竟然是停車,所以很多統計測驗,可以會與我們原本的認知有所不同。

回到戲劇的「起」、「承」、「轉」、「合」,當你一開始就直接進入正題,有時候消費者可能還在上班緊湊感,有些人可能還在廁所,所以前面需要鋪陳,現在進入主題,筆者小提醒我們在應用統計學中,每個人都要有一個檔案,以筆者自己論述來說,寫了碩論200份,裡面的raw data,是筆者過去所調查的資料,所以給撰寫論文的同學建議,為什麼要有這個東西,因為你不管是手算或是電腦算,你都要給他一些數據的資料,所以建議閱讀者,透過raw data 可以直接進行應用統計學的操作練習,讓從設計問卷、發放問卷、就不用去發放問卷,所以當學習者尚未有資料時,建議購買統計課程,透過統計課程的資料來進行學習,通常在初次學習spss,很多人會覺得這個軟體很像office 軟體的excel,其實它很多思維與excel相似,不過excel價錢沒有spss這麼高,在製作統計分析,這個軟體比excel更容易進行資料分析,所以它可以賣這個貴,  我們介紹這個軟體的介面,「資料檢視」和「變數檢視」兩個介面,「資料檢視」的部分,我們所看到SPPS的格子時,都是需要研究者key進去,即是所謂「原始資料」,就是一開始說的「raw data 」原始資料,再來是「變數檢視」視窗,如:變數檢視的性別,我們點「1」為「男」,新增「2」為「女」,當然1、2可以互換。

SPSS的兩個介面(問卷設計與編碼的關聯)

基本上在SPSS上有兩種不同介面,在資料檢視部分,即是將我們的原始資料,所謂的raw data 原始資料,而另一個為變數檢視視窗,而何謂「變數檢視」,期待讓電腦知道研究者處理資料是什麼變數?對於電腦而言,「變數」只是一堆數字,電腦不曉得數字代表的意義是什麼?回到問卷 ,上述提到的「人口統計變數」,為什麼要做「變數檢視」的動作呢?

首先看「性別」,在使用這個視窗時,或許會想說「性別」有什麼好問的呢?在「性別」上,「生理」不是「男生」、就是「女生」,但是在SPSS他並不會將國字進行分析,所以要把資料KEY到電腦裡面去,告訴電腦不可能都寫國字,所以要設計填答定義,加設如果1為男性,2為女性,要清楚讓電腦知道,再來看「最高學歷」,我們可以設定 1為專科、2為學士、3為碩士、4為博士,所以這裡會有一到四,對於電腦來說,它只能處理數字和符號,以上這麼動作叫做編碼,賦予人類的意義叫做編碼,每一個題目的意義叫做編碼,其他像是婚姻狀況,1為已婚、2為未婚,再來,工作位階這些都是「名義尺度」。 

在李科特五點亮表中,與「名義尺度」的設計不同,1為「非常不同意」、2為「不同意」、3為「普通」、「同意」、「非常同意 」,我們可以看出這邊的數字又與剛才的數字的定義不同,所以編碼會扣緊著問卷設計,所以當我們問卷設計完全其實就可以在「變數檢視」視窗進行定義,在年齡的編碼上,我們可能會採用開放式答題,這時我們可能會收到19歲、36歲,其實我們可能很難進行統計,所以在年齡上我們也可能從開放式的答題再重新編碼,18歲以下、18歲到22歲、23到29歲、30歲到39歲,這樣的名義尺度變數,歲數雖然看起來是連續變數,不過在這裡我們用的是一個區間所以為名義尺度。

最後建議使用問卷者如果可以的話盡量使用電子問卷,一方面可以降低手動的錯誤外,同時也可以設定讓答題者都把達到答題到,減少無效問卷的可能性。


歡迎喜歡地方創生的朋友,一同討論。
留言0
查看全部
發表第一個留言支持創作者!