【使用者體驗方法學┃UX工具與分析】如何將自陳式量化問卷調查應用於大樣本的UX使用性測試分析?

2023/11/04閱讀時間約 13 分鐘

某個號稱我國最頂尖資訊通訊科技相關政策智庫的法人機構,幫AR智慧眼鏡技術團隊舉辦了一場的千人體驗活動。由於技術團隊對於UX使用性測試一知半解,也因為時間倉促的緣故,便在未有專業建議的情況下,糊里糊塗地設計出一份民眾體驗完於現場填寫的回饋問卷,結果事後卻面臨不知道該如何分析的窘境。因此,該法人機構找到筆者,以非正式的方式(呃…是的,純粹友情協助,沒有收顧問費)向筆者請教關於本次所回收問卷資料分析的專業建議,還是希望可以事後補救,從中獲取一些堪用的UX洞察。

於是筆者也恰好趁此機會,把過程中分析思考脈絡與可能用到的統計分析方法整理記錄下來,可供有需要的人參考。




案例背景

與讓使用者沉浸在完全虛擬環境之中的「虛擬實境」(Virtual Reality,縮寫VR)技術有所不同,「擴增實境」(Augmented Reality,縮寫AR)技術是將虛擬元素疊合至現實世界中,最為人所知的應用案例就是Pokemon GO App,玩家可以開啟AR模式,體驗在真實環境中抓寶可夢的樂趣。與常見的VR眼鏡不同,AR智慧眼鏡因為主打就像一般眼鏡一樣是通透的、使用者依然可以看見真實世界的場景,所以技術困難度更高。AR智慧眼鏡在鏡面上透過投影技術融入了虛擬的文字、圖片、動畫、影片等資訊內容,並可以隨著使用者的視角、聲音和手勢等操作來改變呈現的內容。這樣的技術除了可以應用於導覽導航以外,也開始在越來越多的領域中展現應用潛力,包括娛樂、消費、教育、醫療保健、社交媒體、工業設計...等,有效地大幅提升使用者體驗。

今(2023)年在經濟部產業技術司支持下,某法人機構與松山文創園區攜手合作,從10月5日起至10月底於松山文創園區,提供AR智慧眼鏡互動式導覽活動,讓民眾可以免費借用AR智慧眼鏡遊覽松菸的各個景點,了解景點歷史文化,並在巴洛克花園進行AR遊戲,探索智慧眼鏡為古蹟空間帶來的全新視界。

AR智慧眼鏡體驗情形。圖片來源:銳傳媒。

AR智慧眼鏡體驗情形。圖片來源:銳傳媒。

AR智慧眼鏡所看到的畫面。圖片來源:銳傳媒。

AR智慧眼鏡所看到的畫面。圖片來源:銳傳媒。

本次的體驗活動,一方面是希望成為AR智慧眼鏡於實體場域中的示範應用案例,展示AR智慧眼鏡於商業化場域落地的可行性,並希望推動產業加速前進,帶來更多商業效益。另一方面——同時也更為重要的是——技術團隊也希望透過本次千人體驗活動,針對AR智慧眼鏡在實際場域中的應用體驗進行UX使用性測試(UX/Usability Testing),了解AR智慧眼鏡的不足之處;此外,也就相同的資訊內容,比較目前技術最為成熟且為國內市占率最高的3大AR智慧眼鏡品牌(佐臻、EPSON、Magic Leap),在使用體驗上的異同之處。

既然為千人體驗,技術團隊便不考慮採用小樣本的質性測試形式,而決定改採大樣本的自陳式量化問卷方式進行本次體驗結果的調查與分析。




為什麼這件事情值得一提?

(絕對不是因為沒有收顧問費所以讓人感到不爽。)

產品研發前期的概念階段或是開發過程中的迭代,所進行的UX使用性測試,通常還是會優先以小樣本的質性研究為主,例如:一對一測試及訪談、焦點團體討論;雖然質性研究的樣本數較為有限,但成本較低,且可以獲取的資訊深度絕對是更有價值的。而隨著產品研發屆臨完成,需要進行公開測試,或甚至是已經進入市場的成熟產品,當代主流則通常會蒐集大樣本的消費數據、會員數據、或產品使用追蹤數據等資料,來進行所謂的大數據分析或A/B測試,較可確保UX使用性測試分析結果更為穩固(robust)、不受偏誤。除非是服務或是非科技產品,才會較常沿用傳統滿意度或服務品質等自陳式量化問卷調查的方式,來了解使用者在使用過程的主觀感受。

這也是為何這個案例顯得如此特別。此次針對AR智慧眼鏡的公開體驗暨UX使用性測試活動,雖然已經進入產品驗證階段,但因為產品未有良好的使用數據追蹤功能,於是在足夠的資源支持之下 — — 政府高額的計畫補助經費及場地方的配合,為期1個月的活動時間,準備了超過20副AR智慧眼鏡可供借用,成功廣邀了超過千人參與體驗 — —改採自陳式量化問卷調查來試圖了解產品的UX使用性測試成果。雖然堪稱極度奢侈,但其實是可行且合理的。

但選擇正確的研究方法,恐怕是此次UX使用性測試的規劃中,唯一做對、做好的地方。




事前設計應注意哪些事情?

如果真有這樣的天時地利人和,打算著手設計一份可用於蒐集大樣本規模的產品UX使用性測試的自陳式量化調查問卷,需要注意哪些事情呢?像此次AR智慧眼鏡技術團隊一樣胡亂設計,那肯定是不行的。

原則1:仍須滿足傳統量化調查問卷及量表的各種基本設計原則

當然,一份好的UX使用性測試自陳式量化調查問卷,既然是自陳式量化調查問卷,那麼還是必須滿足傳統自陳式量化調查問卷及量表的各種基本設計原則。對此,筆者暫不加以贅述。

原則2:不宜直接使用過度簡化的UX量表工具

面對小樣本量化的UX使用性測試,UX研究者一般習慣使用較簡化、且既有已發展相對成熟的UX量表工具,來進行UX使用性表現的衡量,例如:由John Brooke於1986年所編制的《系統可用性量表》(System Usability Scale,簡稱SUS)。使用這類UX量表工具的好處在於信效度已經過充分驗證,所得分析結果很容易與有關產品進行比較,UX研究者也可以省去自行發展UX使用性測試量化調查問卷及量表的時間,縮短UX使用性測試的時間,當然也就可以加速產品開發的進程。

然而,這類UX量表工具的最大缺點,則是在於過度簡化,未能充分考量並依據特定產品的關鍵屬性作彈性設計;此外,也較偏向於「結果論」,使得UX研究者即便可以獲知「使用者的整體接受度」如何,卻難以掌握究竟是哪些關鍵因素造成這樣的結果。這也是為何這類UX量表工具通常會搭配質性研究一起進行的緣故。

因此,在本案例情境中,無法搭配質性研究同時進行的情況下,為了納入更貼合AR智慧眼鏡產品的關鍵屬性,或是對應體驗活動流程中各項UX使用性測試任務(tasks),筆者會建議UX研究者自行設計衡量指標,也就是自行發展適用性更高、更完整的UX使用性測試量化調查問卷及量表。

原則3:參考理論架構,確保UX使用性測試指標構面的完整性

欲自行發展適用性更高、更完整的UX使用性測試量化調查問卷及量表,並不表示UX研究者只能從零開始;而是應該充分參考相關理論架構,確保UX使用性測試指標構面足夠完善。像是SERVQUAL這類傳統滿意度或服務品質的構面通常是重要的發想來源,另外也可廣泛參考消費者心理學、行銷研究、資訊科學等學門的理論架構——這也是為何好的UX研究者應具有跨領域知能的原因。

不過,無論UX衡量工具的來源為何,最重要的是:「以終為始」,也就是從想要得知的UX議題來由上而下(top-down)衍生設計出最適的量化問卷;要嘛站在巨人的肩膀上,要嘛就預先多做點功課(或是乾脆就找UX專業人士協助吧!)。如此一來也可以預先知道最終的分析產出究竟可以得到怎樣的UX洞察,而不是回收完成後才來思考該怎麼分析,或是事後才發現漏東漏西,既失去了質性研究的深度,也無法有效獲取量化研究應得的廣度,那就得不償失了。




事後資料該如何分析?

正所謂「垃圾進,垃圾出」(garbage in, garbage out,縮寫:GIGO),雖然本案例的問卷設計看起來慘不忍睹,欲從中撈出「黃金」(是指gold而非shxt)恐怕不太可能,但統計分析向來是中立的,只要有正確的資料其實都可以跑出數字結果,於是筆者還是把可以跑的統計分析報表都跑了一遍提供給他們參考。只不過,後續的數字結果該如何解釋與應用,就得看他們的智慧了。

(說到這裡,好像該為技術團隊平反一下,此次調查他們做對、做好的地方其實不只有一點——此次回收的資料完整性很高,原始資料也很乾淨、無須耗時清理呢!)

切入點0:每一個題目/指標的單獨分析

  • 請問您的性別是?(單選)
  • 請問您體驗後的不適感受,包含以下哪些症狀?(多選)
  • 在智慧眼鏡顯示的虛擬物件表現非常自然。(李克特式量表,1=完全不自然↔️10=非常自然)
  • 請問當戴上眼鏡體驗活動時,您對整體眼鏡顯示的亮度感受是?(雙極式量表,1=非常不夠亮↔️10=太過於明亮)
  • 針對智慧眼鏡服務如何改善,您是否有其他想法或建議?(全開)

無須多做說明,把每一題封閉題單獨做敘述統計分析,以及開放題做歸納整理,再單純不過。

切入點1:再次確認指標的合理性及指標與構面間的關係

  • 在智慧眼鏡顯示的虛擬物件表現非常自然。(李克特式量表,1=完全不自然↔️10=非常自然)
  • 請問當戴上眼鏡體驗活動時,您對整體眼鏡顯示的亮度感受是?(雙極式量表,1=非常不夠亮↔️10=太過於明亮)

本案例的問卷中,類似於上述的李克特式量表或雙極式量表題目共有20題。除了每一子題(indicators)單獨做敘述統計分析(算出平均分數)以外,其實也可以嘗試聚合成多個構面(constructs)加以分析比較。(當然中間還需要先經歷一些分數轉換的作業,由於非本文重點,便不予多提。)

聚合構面的方式有2種:

  1. 根據理論架構,或由UX研究者主觀判斷適合的構面,事前便已規劃構面與子題之間的從屬關係,但資料回收完成後仍需透過「驗證性因素分析」(confirmatory factor analysis,簡稱CFA)來確保這樣的架構是成立的;
  2. 事前沒有任何研究假設,只能事後透過「探索性因素分析」(exploratory factor analysis,簡稱EFA)的方式從子題中萃取可能的因素/構面。

誠如前述,由於本案例在問卷設計時並未事先參考理論架構、由上而下來設計構面與子題之間的關係,因此原則上只能透過EFA事後萃取。但結果可預期地,草草設計的問卷,一堆子題的因素負荷量(factor loading)為極小甚或負值(意味題目設計有問題,應予刪除),剩餘題目所萃取出的構面也無法以常理解釋其意義。

只好反過來自行定義構面。筆者詢問技術團隊及法人機構是否有比較想要探討的面向,但顯然他們並沒有任何想法;因此筆者只好協助主觀地將20題衡量指標歸納為對於AR智慧眼鏡的「功能介面」、「學習適應」、「整體感受與未來期待」等3個評估構面加以試算比較。(過程中好像少了什麼步驟?沒錯,忽略了CFA同樣慘不忍睹的結果。)

切入點2:客群間的比較——外顯特徵與內隱特質

看完了整體表現之後,在大樣本的條件下,其實還可以進一步比較不同客群之間的差異,也就是所謂的「交叉分析」(cross analysis)。這裡會使用到的就是各子題/構面的卡方分析(chi-square analysis)或是單變量變異數分析(one-way ANOVA);值得一提的是,就實務應用來說,前述兩種分析方法其實便已適用超過9成題目,若非有特殊需求,通常不會特別使用到無母數分析(non-parametric analysis)、迴歸分析(regression analysis)、多變量分析(multivariate analysis,如MANOVA)等統計方法。

而卡方分析或變異數分析所使用到的變量(variables),通常包含4種:

  1. 最明顯且容易理解的外顯特性「人口統計變項」(demographic variables),如:性別、年齡別;
  2. 與測試有關的外顯特性「操縱變項」(treatment variables),如:在UX測試過程中使用的AR智慧眼鏡品牌;
  3. 較為抽象的內隱特性「人格特質變項」(personality traits variables),如:外向性、科技接受度;
  4. 與測試有關的內隱特性「未知集群特徵」(unpredicted cluster variables),如:AR智慧眼鏡適應力。

本案例的問卷中已納入前列1.「人口統計變項」、2.「操縱變項」等變量,雖無3.「人格特質變項」,但已可做基本的交叉統計分析。

筆者進一步嘗試透過20個子題與3個構面進行「集群分析」(clustering analysis),試圖找出本次受測樣本的4.「未知集群特徵」並據以區分若干集群。但(撇除部分前述設計有問題的題目後)結果顯示,得出的3群分別是高、中、低滿意度客群,可惜沒有太大的分析與參考價值。(只能說不意外嗎?)

切入點3:跨產品/跨活動間的比較

最後,如果UX使用性測試的量化調查問卷/量表設計良好,應是可重複使用並且加以比較分析的。例如可以比較不同時間、地點所辦理的AR智慧眼鏡體驗活動的成效,或是比較不同的資訊內容呈現對於UX體驗的影響,又或是進一步與智慧型手機搭配AR應用、VR智慧眼鏡...等不同競品/替代性產品的多元互動體驗形式進行比較,相信對於AR智慧眼鏡產品的開發將更有助益。

不過,顯然本案例的問卷並不適合繼續沿用。(原因應該無須多做說明...)




後記

雖說本次面臨的是個活生生血淋淋的負面教材,但無疑是將自陳式量化問卷調查應用於大樣本UX使用性測試分析的絕佳案例。只能說,希望該技術團隊與法人機構有學到教訓,未來可以更懂得尊重UX專業(恐怕想太多了);而對於UX研究者們來說,如果未來有幸接到這樣可以發(ㄏㄨㄟ)揮(ㄏㄨㄛˋ)的大案子,可以引以為鑑,小心千萬別重蹈覆轍了!

「展覽體驗設計分支計畫」是「UX.Debugger 體驗設計除錯計畫」的一個系列專題,專為探討與展覽活動有關的使用者體驗設計議題。剖析整體策展規劃、線上與線下接觸點設計、以及應用科技媒材的當代展品設計,並以臺灣在地的展覽活動為主要取材來源,輔以國外標竿案例介紹,希望能夠驅動實體展覽持續優化觀展者體驗。
留言0
查看全部
發表第一個留言支持創作者!