統計學的知識與運用─第一堂

2025/01/09 更新2024/01/10 發佈閱讀 17 分鐘

第一堂學生創新團隊的點評

我們的統計在社會科學裡面，它到底是怎麼樣產生的，我們今天要算這個統計學，要送統計，他們本身要有Raw data，這樣才有辦法進行運用，如：我們要怎麼算平均身高如下是：

「全部身高」除以「人數」等於每個人幾公分

所以我們要設計如何用電腦計算，要「input」才會有「output」，「問卷」就好像就是蒐集 Raw Data 的工具，在社會科學的工具，常常要思考「問卷是什麼？」在每一個學期末都會對授課老師去做教學評量，這時會有問題出「同學有沒有填過教學評量的嗎？」或是「同學修了幾門課就可以對老師做教學評量嗎？」

當然結果不管是「寫好」還是「寫壞」，大學主體是「學生」，如果沒有學生大學就只是「研究機構」，所以我們人有一種傾向，在填寫問卷時，覺得很好的不一定會寫，如果很爛的一定會抱怨，過去我們是否曾間在辦公室中有位常常在抱怨，很多時候抱怨可能前後矛盾，所以當我們在設計問卷，採取這個研究工具，施測學生對老師的滿意度，這就是「統計」，所以我們在設計問題時，我們就需要讓大家知道你做什麼題目呢？其實可「選擇性保留」，設計有幾個變數，也許有些受試者不需要知道這麼詳細，我再改成簡單的學術研究，受試者其實不需要清楚知道，因為他只是填答問卷的人而已。

「開場白」的重要性

對筆者來說，「開場白」有必要嗎？如果沒有這麼寫，一方面寫的人會不知道目的，另外就是寫清楚才會有正當性，留下「知道」，填下來的人才會覺得設計者是「負責任」的人，這表面看起來像學術問卷，表面效度就像表面功夫，要有「公信力」，這樣才可以讓受試者好好思考回答，他就不會胡亂作答，回答假資料，他回答不好資料，「原始資料不好」，統計技術再好，就很難分析好的資料，說到這裡筆者想要問大家「什麼是表面效度？為什麼要卷頭語？」，所以「卷頭語」如同客套話，當我們說完客氣話後，即可就開始做個人基本資料。

那基本資料包括哪些呢？「年齡」、「性別」、「年資」、個人基本資料，這些在統計學上叫做「人口統計」，為何他叫做「人口變數」？來自於我國的「人口普查」，一般而言，內政部在每十年會做一次人口普查，了解我們國家有多少人？有多少小孩？

而「性別」、「年齡」都是內涵，不需要和國家一樣地毯式的搜查，所以統計學告訴你，只要詢問你需要的資料即可，所以問性別很基本，不過不一定都要問，也不是所有題目都要問年齡，那為何要問？目的要找出在題目下的差異性的比較。

舉例來說，我想要知道大學學生對學校滿意度，或許就不用知道「性別」，之前我們設計問題可以要了解全班的身高，那就不太需要「性別」和「年齡」，不過如果我們要側身高，你唯一知道就只有身高，其他的部分就不用設計。

因應題目設計問題

如果我們要了解學校的滿意度，「學校滿意度」就是查出學生對於學校的滿意度進行統計即可，故把題目修正一下，我想知道全班男同學的「平均身高」，與全班女同學的「平均身高」，差距多少，這個問題是不是就需要性別的資訊了？我們需要男生一堆、女生一堆來做比較。

因我目前在XX大學工作，如果我今天想要了解，XX大學的學生對於學校滿意度，會不會因應年級有不同看法，如：碩一、碩二的學生。他們對於學校的看法有沒有不一樣，此時我就必須知道每個同學他是幾年級的學生，所以我就需要基本資訊了。

差異性的比較

如果你未來的問題，有要做差異性的比較，想了解「男生」、「女生」有沒有不同、「老」、「中」、「青」也沒有不同，「年資」有沒有不同，抑或是「婚姻狀況」。而對於某些事情的看法，「已婚」的人和「未婚」的人對於一件事情有可能不同，如有想要這樣分析的手段，那你就必須問，因為你沒有問你就會不知道，你只會得到一團數字你分不開，如果你有設計，就可以知道哪一團是男生、哪一團是女生。

你一定要問，最後我們才能區別，分成「兩堆」、分成「三堆」、分成「四堆」，所以這些「基本資料」，他並不是「深家調查」，而是根據你的研究調查的目的，你才加以去問他的基本資料，如果你真的不太需要這樣的基本資料，那就不要問。再來，例如：連血型、星座都問，很多時候沒有不必要，設計問卷不要為了問而問？

人口統計變數

上物這些基本資料，我們就稱為「人口統計變數」。人口統計變數到底要問哪些呢？其實是按照你的研究目的而定，並不是隨便問的，那繼續介紹內涵，裡面如：「性別」，我們的性別現在分成幾種，以「生理性別」來說，成兩種性別。大致上當然我們現在有一些心理的問題，他可能是生理上是男生不過心理上女生，或是生理女生不過心理上的是男生，在性別上是可以切分的。

但畢竟上在生理出生後區分性別，所以大概會用兩種，除非就是你今天做的東西是「跨性別研究」，例如：做「多元成家」的研究，做「同志」之間的研究，那當然很可能在性別上面多幾個選項。不過若我們今天的問題為簡單「行銷調查」，抑或者是管理學的研究，我們性別做這兩種就可以了。那這種性別不是「男生」就是「女生」，有沒有其他的可能性，在「生理上」或是「心理上」，基本上沒有其他的可能性，就是兩個選項，這兩種選項我們給他一個名稱。

其他例子

我們多舉幾個例子好了，例如說：「婚姻狀況」，婚姻狀況為「已婚」、「未婚」，看有沒有其他的可能性，如果你今天有需要這些狀態的人回答，那你就要給他足夠的選項，如：「同居」，有些人知道離過婚，像是「家庭研究」需要知道婚姻狀況，和家庭經驗，基本上一個人只會有一個狀況，抑或是說至少你在填答問卷只有一個狀況，例如：職業，這邊的選項要多要少，要看研究者自己需求，有些人希望分得很細，如：把「內政部」、「經濟部」、「教育部」等等的所有分類，全部都設計進來，因為他想要做與職業有關的調查，如果你只是要初淺的劃分，如：「金融業、餐飲業、製造業。」

「名義尺度」為何

或許你就可以大略的分類，不用分得很細，那筆者想要詮釋什麼？筆者想強調的為「很明確的選項」，我們給他一個名詞，所謂的「名義尺度」或是「類別尺度」或是「名義變數」或是「類別變數」。這樣的解讀是什麼意思，什麼叫做「名義」，什麼叫做「類別」，其實很白話了，其實我今天的選項會歸類在某一類別，絕對沒有模糊的空間，例如說「性別」，男生或女生有沒有其它可能性，如果以生理上來說，沒有其它可能性了，可見他是非黑即白的，也就是說，你落在某個選項上，他是沒有其他的「模糊空間」，我們就稱為「名義尺度」或是「類別尺度」、「名義變數」或較為「類別變數」這樣的意思，意味著假設你是「碩一」、「碩二」、「碩三」以上，你有沒有可能舉兩次手，在這個瞬間是不可能的。意味著你是幾年級來說，這也是屬於「名義尺度」的。

再來，你是住在「台北市」的人，還是「新北市」的人，還是住在「台中市」的人或是其它地區的人，基本上也是「名義尺度」沒有任何模糊的空間，當你的選項沒有模糊空間時，我們就稱為「名義尺度」和「類別變數」。這樣有沒有問題，也就是說「名義尺度」。

他可以算出「正整數」，例如說：碩一有五位、碩二為六位，他是不會有小數點的，這樣子可以接受嗎？例如：說我們班上有幾位男生？有幾位女生？都是正整數。

什麼是自然數？

「自然數」它不會有任何的模糊空間，如：「年齡」可以設計一個填充題，一方面年齡問起有點敏感，對女生來說，你現在心裡面想一下幾歲，你心裡面知道自己幾歲，那你填歲數時，假設我回收時，我會得到幾個答案，以碩士班來說，筆者就讀時年齡都不一樣有人寫28歲，有人23歲。假設問「身高」，身高幾公分？有人寫190公分，有人寫185公分，你填入你的身高，如果有人填了180.5CM，180.5公分就是比180公分多0.5公分，這時我們要思考的是我問的不是有沒有意義，而是讓我們自己思考有無「顯著性」，以身高來說，當然是有意義，你自己的身高當然是你自己的身高啊，非常明確，你不需要與他人做比較，或許在統計上沒有顯著性，不過當下我不是在問你，有沒有顯著性，而是問你從小長到大，你越來越高，你今天從150公分長到 160公分，長到180cm，請問你是每天長一公分，還是慢慢地持續的長，長到171公分，中間要經過很多小數點，正式長上去的，應該都會經歷，那些小數點應該會有，所以那些小數點是有意義的。

什麼是連續變數？

我馬上想到的是「體重」，我們設計「填充題」讓你去做回答的時候，我們稱為「連續變數」，continue「連續變數」，在應用統計學中，了解什麼是「名義尺度」？什麼是「連續變數」，年齡是「連續變數」、身高也是「連續變數」，像「長度」、「寬度」、「面積」、「體積」，這些是不是連續變數，抑或是要量教室佔了幾坪，買25坪和買25.5坪的房子會是一樣嗎？

你會說沒差那0.5坪嗎？那0.5坪不要算？筆者認為在台北市多那0.5坪，好像就可以多幾十萬，甚至「百萬」或是「上千萬」都有可能，今天你要賣房子時，量出幾坪「40.3坪」，筆者認為若以「房屋仲介」，那0.3坪就不要算了，不可能，可差幾十萬，我還是要算進去，所以給筆者給你幾個原則，如果你發現有一個東西，它的小數點是有意義的那它就是連續變數，如果他的小數點是沒有意義的，或者不知道是什麼東西的，那基本上它就是「名義尺度」。

例如：過去我們在學校上課時，以我們大學班級及系所來看，班上可以算出有幾位男同學，和幾位女同學，假設有19位男生、18位女生，那如果說這樣的話，加起來是多少人？假設35人，所以男生女生平均起來，「18.5人」這個數字就沒有意義，因為基本上人頭，就是一位、兩位、三位、四位，所以算出的118.5人，它就定能不能算呢？它還是會算出這個答案，不過你不曉得這個答案意義。若不太了解筆者過去班級，根據我們的性別平均，一種性別有18.5人，這種話我說不太出來，我們班上有19位男生、18位女生，所以班上平均有18.5人，這就沒有意義。但是若你今天發現滿意度，如：「忠誠度」抑或是「購買意願」，對學校同不同意，它都是有小數點無限切割的可能性，那它就是「連續變數」。

受訪者的立場

在問卷上面看問卷的題目，在基本資料問完後，「人口統計變數」，接下來設計一些題目，「題項」就是問受試者，如：對於本身任職的公司是好還是不好？舉例：我們美術館在社會中有很高的評價？請作答那受試者，若你是館員，你就可以想想，你所任職的美術館是不是有很高的評價，你覺得美術館有沒有很高的評價？有沒有正確答案？「有沒有」就算我與你在同一家美術館，有沒有正確答案。

筆者認為評價是不相同的，在過去我與同事都在美術館上班，不過我們對於美術館的認同感卻是截然不同，每位館員心理對於美術館的評價不同，不見得有很高的評價，不一定嗎？也許有人覺得還好啊？我們美術館還好啊？有些人標準很嚴格啊，評價沒有那麼高，所以後面在設計我們同意程度的選項，程度就是degree，從低到高，當然你也可以把選項名稱寫下來，一代表「非常不同意」、二代表「不同意」、三代表「普通」、四代表「同意」、五代表「非常同意」。

李克特五點亮表

你也可寫從低到高，低就是分數少的，高就是分數多的，你也可以這樣做，假設說：「我們美術館在社會中有很高的評價，這一題我們來做筆者給他四分、第二題我能夠成為美術館的一員是榮耀的，我覺得不錯是很榮耀的一件事情，我就把五分勾起來，我們的美術館是被認為最好的機構之一，我覺得沒有錯，我真的覺得在美術館界，我們是非常棒的，我就選四分。我們就先寫前三題，假設如果你心裡面是什麼就寫什麼？這沒有標準答案，就好像以前在學校的期末時，學生幫老師在填答教學評量時，學生覺得老師教得好不好，有沒有按時授課抑或是有沒有按表抄課，有沒有符合「教學目標」，對於那每位學生，每位同學都可想它所認為的東西。

那筆者舉個例子，假設只有三題，第一題得到了四分、第二題得到了五分、第三題得到了四分，所以十三分是總分，平均為 4.333，這裡的0.33有沒有意義。當然有意義。若我今天回答為非常同意，三個五分，這樣加起來是十五分分，平均是五分，所以五分和4.333就是不一樣，所以五分的中間，它的小數點是可以無限切割的，有些人可能回答二，有些人可能回答三，所以平均數會不一樣，所以這邊小數點拿來比大小是有意義的，這些都是「連續變數」的概念，所以在學應用統計學時，要學習把這些簡單的觀念慢慢地把他抓起來，事實上在我們生活裡面，用到統計並不複雜，它是很簡單的。

連續變數與名義變數

剛才美術館機構認同填完後，現在問的是你對美術館的承諾，美術館承諾在組織行為裡面代表的是館員對於美術館所任職的工作，所依附的強度，就是你願不願意對這家美術館有承諾，才代表你會不會為它努力，留下來或是依附意願，這樣稱為「機構承諾」，那同樣的這些題目也是因人而異，也些人覺得很棒它可能勾五，也些人覺得還好它可以勾「二」或「三」。再來是「留職意願」，「好」你留下美術館的想法是什麼？這些題目只是舉例而已，上述問題的形式都是「連續變數」，所以你後面有看到掛尺度的「一」到「五」或是「一」到「七」，「非常同意」到「非常不同意」都是屬於連續變數，而「性別」、「年齡」、「行業」、「居住地」都是「名義尺度」。

接下來要到我們重頭戲，閱讀者到這裡你可能累了，想說為何一開始不說重頭戲呢？筆者認為一開始講重頭戲，或許對於一般人來說可能不太清楚，藉由將理論生活化，所以筆者先鋪梗，就像我們去國家戲劇廳看戲，表演者要帶動劇情的起伏，才能有高潮迭起，打個岔題，記得我在博士班上過朱宗慶老師的課程，他說到當時統計發現到影響參觀者的原因，主要竟然是停車，所以很多統計測驗，可以會與我們原本的認知有所不同。

回到戲劇的「起」、「承」、「轉」、「合」，當你一開始就直接進入正題，有時候消費者可能還在上班緊湊感，有些人可能還在廁所，所以前面需要鋪陳，現在進入主題，筆者小提醒我們在應用統計學中，每個人都要有一個檔案，以筆者自己論述來說，寫了碩論200份，裡面的raw data，是筆者過去所調查的資料，所以給撰寫論文的同學建議，為什麼要有這個東西，因為你不管是手算或是電腦算，你都要給他一些數據的資料，所以建議閱讀者，透過raw data 可以直接進行應用統計學的操作練習，讓從設計問卷、發放問卷、就不用去發放問卷，所以當學習者尚未有資料時，建議購買統計課程，透過統計課程的資料來進行學習，通常在初次學習spss，很多人會覺得這個軟體很像office 軟體的excel，其實它很多思維與excel相似，不過excel價錢沒有spss這麼高，在製作統計分析，這個軟體比excel更容易進行資料分析，所以它可以賣這個貴，我們介紹這個軟體的介面，「資料檢視」和「變數檢視」兩個介面，「資料檢視」的部分，我們所看到SPPS的格子時，都是需要研究者key進去，即是所謂「原始資料」，就是一開始說的「raw data 」原始資料，再來是「變數檢視」視窗，如：變數檢視的性別，我們點「1」為「男」，新增「2」為「女」，當然1、2可以互換。

SPSS的兩個介面(問卷設計與編碼的關聯)

基本上在SPSS上有兩種不同介面，在資料檢視部分，即是將我們的原始資料，所謂的raw data 原始資料，而另一個為變數檢視視窗，而何謂「變數檢視」，期待讓電腦知道研究者處理資料是什麼變數？對於電腦而言，「變數」只是一堆數字，電腦不曉得數字代表的意義是什麼？回到問卷，上述提到的「人口統計變數」，為什麼要做「變數檢視」的動作呢？

首先看「性別」，在使用這個視窗時，或許會想說「性別」有什麼好問的呢？在「性別」上，「生理」不是「男生」、就是「女生」，但是在SPSS他並不會將國字進行分析，所以要把資料KEY到電腦裡面去，告訴電腦不可能都寫國字，所以要設計填答定義，加設如果1為男性，2為女性，要清楚讓電腦知道，再來看「最高學歷」，我們可以設定 1為專科、2為學士、3為碩士、4為博士，所以這裡會有一到四，對於電腦來說，它只能處理數字和符號，以上這麼動作叫做編碼，賦予人類的意義叫做編碼，每一個題目的意義叫做編碼，其他像是婚姻狀況，1為已婚、2為未婚，再來，工作位階這些都是「名義尺度」。

在李科特五點亮表中，與「名義尺度」的設計不同，1為「非常不同意」、2為「不同意」、3為「普通」、「同意」、「非常同意」，我們可以看出這邊的數字又與剛才的數字的定義不同，所以編碼會扣緊著問卷設計，所以當我們問卷設計完全其實就可以在「變數檢視」視窗進行定義，在年齡的編碼上，我們可能會採用開放式答題，這時我們可能會收到19歲、36歲，其實我們可能很難進行統計，所以在年齡上我們也可能從開放式的答題再重新編碼，18歲以下、18歲到22歲、23到29歲、30歲到39歲，這樣的名義尺度變數，歲數雖然看起來是連續變數，不過在這裡我們用的是一個區間所以為名義尺度。

最後建議使用問卷者如果可以的話盡量使用電子問卷，一方面可以降低手動的錯誤外，同時也可以設定讓答題者都把達到答題到，減少無效問卷的可能性。

留言

走讀城市創生─許正賢的沙龍

38會員

274內容數

歡迎喜歡地方創生的朋友，一同討論。

走讀城市創生─許正賢的沙龍的其他內容