LLM Chat Accessibility

2025/05/25 更新2025/04/16 發佈閱讀 4 分鐘

因為很好奇，所以想檢測一下主流 LLM Chat 工具在無障礙上的支援程度

隨著歐盟的無障礙法規到來，我實在是很好奇最近幾年新出現的 LLM Chatbot 是否能通過無障礙，於是就隨意挑選三個 LLM 記錄一下 2025 目前的狀況。（如果過不了還能在歐盟的國家使用嗎？真是疑惑。）

機器掃描

1. 選擇當作基準的測試工具

本來是想簡單一點用 Chrome Devtool 的 Lighthouse ，但會被 Grok 一直擋在機器人檢測的頁面，所以本次選擇 IBM Equal Access Accessibility Checker 的 Chrome Extension 來測試，會選擇的原因是此款擴充程式一來持續在更新，再者可以根據需求選擇檢測規則。

共有五種選擇，其中三種為 WCAG 2.0, 2.1, 2.2 的 A 與 AA 級，其他兩種為 2.1 和 2.2 各自加上IBM 的額外補充。

2. 在未登入的情況下進行測試

因為登入之後可能會因為資料的不同造成差異，所以要以未登入的狀態開始

雖然三者首頁有不盡相同，但在聊天的主要視窗大致上是一樣的

3. 機器檢測簡易結果

報告明細會區分三種等級，而每個等級又分成：

Violation：明確的違規
Needs review：需要人工近一步檢視
Recommendation：工具建議的做法

左起 ChatGPT、Gemini、Grok，以簡單的數字來看，Gemini 表現相較優異。

可以看到在總數上三者並無太大差別，但是在 Violation 方面，Gemini 就相較優異，至少有明顯在程式上處理無障礙，其中 Violation 的部分看起來都是 <svg> 沒有標記描述之類的。

當然，這樣的機器檢測並不能代表什麼，因為在有些情況下，原本可以使用機器掃描辨別的，可能會因為使用的技術太新或其他原因，導致無法辨別。(例如背景與前景顏色的對比)

所以應該說，連這個都不能通過的話，那就也不需要進一步人工檢測了。

此階段個人認為 Gemini > ChatGPT = Grok

人工檢測

開啟作業系統報讀軟體做看看人工檢測以下任務：

在首頁輸入問題至聽到回覆結果，並觀察網頁回饋的行為
鍵盤遊走
accesskey
標題規則檢測
人工顏色檢測
Landmark
跳至主要內容按鈕
<noscript>
其他問題

在人工檢測的部分，三者在顏色方面都差不多，保持著簡單的黑色簡單的介面，可惜的是都沒有設定 accesskey，不確定是不需要還是沒有設定。Landmark 也因為是簡單的介面，所以基本都只有 main 而已，感覺應該可以再拆分得更細緻一點。

禁用 js 的情況下，只有 ChatGPT 有顯示畫面，其他兩者都是空白，但即便是有顯示畫面，但是沒有提示使用者可能無法操作，可能會造成更多困擾。

在實際操作 AI 對話的方面，我個人更喜歡 ChatGPT，雖然在鍵盤遊走的部分會有順序不一致的問題，但因為很多動作做完都是回去 Focus 在輸入框，所以倒還好。另外我覺得 Gemini 優於 Grok，因為畢竟是 chatbot ，個人覺得「回覆的狀態」還是最重要的，即便是沒有直接報讀回覆的內容。