許多人會說MBTI測驗不準,但準不準不是由你我說的算,所以我想提供目前科學對MBTI和心理測驗的態度結合自身經驗做出總結。
根據《教育與心理測驗標準》(AERA、APA 和 NCME,1999 年),心理測驗的效度(psychometric validity)是指「證據和理論在多大程度上支持測驗分數的解釋,並且這些解釋適用於測驗的預期用途」。換句話說,測試本身並不是自然地有效的,而是我們如何解讀測試結果才會有有效性。測試在特定的情況下可以有幫助,只要我們知道它們的限制。例如,一些性格測試可能對於特定的應用場景(如職業指導、團隊建設等)具有一定的實用性,但這需要針對這些特定用途進行詳細的驗證和研究。
因為MBTI是將每個性格指標分成兩個向度,所以如果一開始測試時,兩個向度的分數本來就很接近,第二次測試時會因為有些回答偏向另一方而改變總體的結果。性格也不是長久不變的,很多時候施測時的外在因素也會改變作答結果。另外MBTI官方的研究表明,如果人們重新進行MBTI測試,50%的人會得到不同的性格類型。這表明MBTI的"一致性"較低,意味著該測試在重覆測試時無法一致地將人們歸類為相同的性格類型。
理論上,如果要將一個連續的變量(即某種特徵)劃分為兩個類別(如 MBTI 中的外向和內向),理想情況下,該變量應該具有雙峰分佈(bimodal),即數據應該在兩端有顯著的集中點,類似於兩個「駝峰」。這樣的分佈會顯示出明顯的分界線來區分不同類別。現有的證據顯示,MBTI 的各種特徵(如外向性、內向性)呈現的是單峰分佈,即數據集中在一個中心點,而且是我高中就學過的常態分佈,而不是兩個明顯的高峰。如果是單峰分佈,那麼在將連續變量劃分為兩類(如外向或內向.)時,分界點會顯得任意,並沒有一個自然的區分點。比如常聽見的:你不是E人嗎?趕緊去社交阿!或你這麼外向一定是E人,結果對方說自己是I人。這兩個案例其實就是兩人可能都在統計學中常態分佈的中間,可是這樣的51%E卻和98%E同一個類型大多數人「既不是過度外向,也不是極度內向」。接近中間的人可能因為一些回答偏向E被劃分到E人這邊,這進一步削弱了 MBTI 分類的準確性。個體其實不應該被硬性劃分為固定的類型,而是應該被視為存在於某個特徵的連續譜系上。例如,外向性和內向性並不是完全分離的兩個類別,而是可以連續變化的特徵。由於MBTI的"一致性"很低(即重複測試時結果可能會改變),而MBTI關於性格的主張(即有效性信息)依賴於測試的一致性,單憑重測就可能導致變化,因此支持MBTI作為性格指標的有效性論點很難成立。也許有研究表明它可以在特定的情境中使用,但對於測試的廣泛應用並沒有多大說服力。
根據 Messick (1989) 所說,測驗效度關注的是測驗分數的適當使用,而不是測驗的本身。因此,效度主要是關於測驗分數如何在特定情境下被解釋和應用,而非測驗本身的設計或形式。
心理測驗的效度類型:
內容效度(Content Validity):內容效度關注的是測量工具的題目是否全面且適切,能夠準確地涵蓋研究的主題。比如教育部出學測數學題目時,內容效度就要求測驗中的所有題目都能檢測到高中所學之知識,能夠真實反映學生的數學能力。它涉及測驗項目的格式和背後的理論依據。MBTI測驗的理論過時,且現代文獻不再支持它,這表明該測驗的內容效度存在問題。MBTI中的直覺/感覺(N/S)、思考/情感(T/F)和判斷/知覺(J/P)維度被認為不是穩定的性格特質。這些維度可能會隨著時間、情境和個體經歷的變化而改變,所以我們才會測驗出不同的結果。MBTI測試的問題不在於測量誤差,而在於這些測試試圖測量的特質(N/T、T/F、J/P)可能並不存在。換句話說,這些維度可能無法有效地描述實際存在的性格特質,因此存在內容效度問題。
建構效度(Construct Validity):這種效度指的是測驗的結構是否符合理論的預期,通常通過統計分析來檢驗。測驗的因子結構應該與理論一致,但MBTI因子結構與其理論不符(榮格當初用自身經驗而非科學創造了三種類型,而創立MBTI的人自己研發了第四個),顯示其建構效度不佳。
效標效度(Criterion Validity):這種效度指的是測驗分數與外部標準之間的相關性。MBTI常常被用在測試工作表現,但Gardner, W. L., & Martinko, M. J. (1996)顯示類型與管理有效性之間幾乎沒有發現一致的關係。
以我自己為例,學校會用何倫碼六型人格測驗看適合的生涯發展。另一個是BIG5大五人格測驗:為了確保各類別有意義,這個測驗收集了遺傳證據和功能性磁振造影數據。他們還發現,實際上不存在類型這樣的東西——每一種人格特徵都是一個連續體,很少處於一個極端或另一個極端。
需要注意的是,人格測量工具本質上存在缺陷。即使是那些不會故意撒謊的人,也往往會給出他們認為“更好”的答案,而不是準確的答案。盡管更好的測試嘗試了彌補這方面的缺陷,MMPI-2 和 MMPI-2-RF(明尼蘇達多項人格測驗)正是為了彌補這些缺陷而特別設計的。這些測試旨在使受試者難以直接或間接欺騙,且在很大程度上取得了成功——雖然這並不能保證完全使受試者誠實回答,要做到真正能夠測驗真實性格確實非常困難。但這並不是說這些結果毫無用處。只是說它們存在缺陷。認識到這些缺陷是解釋結果的重要部分。特定的回答與特定的行為相關,也有他的限制。人格評估的結果只會告訴你一個人說他們會做什麼,但不一定是他們實際行為的良好預測因素,因為人們自己並不總是擅長預測自己的行為。它們可能不是對個人個性的客觀評估,但它們代表了一個人想要投射或代表自己的個性。 不僅如此,結果可以隨著時間的推移或其他變數進行比較,以保持一致性。
MBTI 的受歡迎並不是因為它有堅實的科學基礎,而是因為它設計得簡單易懂。像類似的個性測驗一樣,MBTI 讓人們只需回答幾個問題就可以得到一個結果,這很吸引人,尤其是在一些團隊建設或企業活動中。它的目的之一是讓人們思考不同的風格差異。當測驗讓人們了解他人,尤其是他們自己時,人們會經歷「頓悟」時刻,人們都會被自己理想中的自我形象所誘惑。心理學上有個巴納姆效應再說,人們會對於他們認為是為自己量身訂做的一些人格描述給予高度準確的評價,而這些描述往往十分模糊及普遍,夠廣泛適用於大多數人身上。比如很流行的星座和塔羅牌就是使用一些模糊的泛泛而談的言語使人感同身受。而且,這會使人產生確認偏誤,以為某種行為就是個人的特質。