研究者揭示了 AI 模型在呈現國家、州、城市乃至社區時存在的系統性偏見 。
本文參考自《The Silicon Gaze: A typology of biases and inequality in LLMs through the lens of place》發表於《Platforms and Society》
數據顯示,僅在美國就有超過 50% 的成年人經常使用如 ChatGPT 等大型語言模型(LLMs),而全球範圍內的使用規模更是不斷擴張 。我們透過這些模型來理解世界的經濟、社會、政治,甚至是空間面向。
然而,當我們沉浸在 AI 提供的便捷解答時,一個隱蔽而深刻的權力結構正在悄然運作。由 Francisco W. Kerche、Matthew Zook 與 Mark Graham 提出的「矽谷凝視」(The Silicon Gaze)概念,精確地捕捉了這一現象:
AI 系統以其獨特的視角看見並呈現地理空間
進而複製並放大長久以來的空間不平等
透過對 ChatGPT 進行高達 2030 萬次查詢的大規模審計,研究者揭示了 AI 模型在呈現國家、州、城市乃至社區時存在的系統性偏見 。
矽谷凝視
「矽谷凝視」這個概念主要借鑑了女性主義理論中的「男性凝視」(Male Gaze)。在男性凝視中,女性被定位為被動的對象,其價值由外在的權力(即男性欲望)來衡量。
同樣地,「矽谷凝視」是由其訓練數據、設計者及平台所有者的立場與權力不對稱所塑造的 。
- 設計者的立場:
AI 模型的開發者主要由白人、西方男性組成 。這代表說模型的原始邏輯深受這些特定族群的世界觀影響 。
- 數據的偏差:
訓練數據同樣表現出顯著的傾斜,高度集中於全球北方(Global North)與制度化編碼的資訊 。
- 非中立的知識製作:
矽谷凝視並非中立的客觀反映,而是深深植根於其設計者的視角、機構框架以及訓練數據背後的社會、經濟與政治背景中。這迫使研究者必須追問:
- AI 究竟「知道」哪些地方?
- 是誰的利益在決定哪些地區具有可見性?
- 而又是誰的聲音被淹沒在矽谷背後 ?
「矽谷凝視」是由其訓練數據、設計者及平台所有者的立場與權力不對稱所塑造的 。
審計 AI 的地理心智
為了量化這種看不見的偏見,研究團隊構建了一個基於 Python 的查詢引擎,透過 OpenAI 的 GPT-4o-mini API 進行了橫跨 2025 年 3 月至 5 月的大規模審計 。
研究者採用了「強迫選擇」(Forced-choice)的設計,要求模型在兩兩對比中選出一個答案 。這些查詢涵蓋了不同程度的主觀性 :
- 高主觀性:例如「哪裡的人更美麗?」或「哪裡的生活氛圍更好?」
- 中主觀性:例如「哪裡的人更聰明?」或「哪裡的麵包更好吃?」,這些問題通常與現有的某些指標有間接關聯 。
- 低主觀性:例如「哪個國家的科技業增長最快?」,這類問題通常有明確的統計數據可供參考 。
實驗發現,儘管 ChatGPT 在網頁介面中常表現得外交辭令、不願給出直接排名 ,但在 API 的強迫選擇下,卻展現出極其一致的「勝者」與「敗者」。這種一致性反映了模型內部深層的標記關聯(Token associations)。
五大偏見類型學
基於審計結果,研究者提出了一個五部分的偏見類型學,解釋了 LLM 如何特權化某些地方,同時使其他地方隱形。以下所呈現圖表皆來自本研究,越藍代表越好,越紅則代表越糟。
1️⃣可得性偏見(Availability Bias)
這是指 AI 傾向於特權化那些易於被大型語言模型管線抓取與索引的材料 。
- 數據核心:這些資料通常是英語、全球北方且經過制度化編碼的,如同行評審期刊、政府標準化數據、高流量媒體及社群網站 。
- 結果:由於這些來源主導了訓練語料庫,它們供應了 ChatGPT 推斷出的「常識」基線 。
- 隱形區域:使用較小語種的內容、口述傳統、低頻寬論壇或付費牆內的本地檔案,則留在了模型的視野之外 。
案例分析:
在「哪裡的人更有文藝氣息」的排名中,法國位居榜首 。相反地,非洲大部分地區、阿拉伯半島及中亞部分地區則被排在末尾 。
研究指出,早期的 GPT 模型 93% 的訓練數據是英文,這使得非歐洲語言的數位記錄在矽谷凝視中極難被看見 。同樣的模式也出現在「更好的麵包」(Where has better bread)地圖上:
法國再次奪冠,而擁有豐富本土烘焙傳統的次撒哈拉非洲與阿拉伯半島則因缺乏英文媒體呈現而被評分極低

「更好的麵包」(Where has better bread)地圖上法國再次奪冠。來源:本研究。
2️⃣模式偏見(Pattern Bias)
這是預測引擎(LLM)將輸出與數據中的模態模式(Modal patterns)對齊的傾向 。
- 詞彙共現:
如果 A 地與「美麗的天際線」共同出現的頻率是 B 地的 10 倍,模型就會提升 A 地的排名,因為這是優化最可能出現的下一個詞的結果,結果便是造成數據內部的馬太效應,贏者全拿,輸家全丟。
- 案例分析:
在「哪裡的人更聰明」的查詢中,所有高收入國家及部分上中等收入經濟體(如中國、印度)均排在前列 。模型並非在查閱教育統計數據,它只是在複製網路語料中「聰明的芬蘭人」或「高智商的新加坡人」等常見短語。
在巴西內部的對比中,較富裕且在全國媒體中曝光率較高的聖保羅、聯邦區等南部州被評為最聰明,而亞馬遜州、馬拉尼昂州等北部州則被評為最低 。
這強化了既有的社會經濟與種族等級制度,因為這些地區在語義上常與「更好的教育」或「天才學生」等詞彙 dissociative(解離)。

哪裡的人更聰明的查詢中,地圖只是在複製網路語料中「聰明的芬蘭人」或「高智商的新加坡人」。來源:本研究。
3️⃣平均化偏見(Averaging Bias)
這是指模型傾向於將異質的論述壓縮為簡潔、用戶友好的摘要 。
- 抹除差異:
面對數百種來源(新聞、旅遊部落格、圖片說明),ChatGPT 會尋求一種「平均情緒」,從而剝離細節,將地方的複雜性扁平化為大眾認可的陳詞濫調 。
- 案例分析:
在「更好的詩歌傳統」地圖中,儘管波斯語數據稀少,伊朗卻位居榜首 。這是因為模型捕捉到了一個持久的文化模因(Meme,也翻迷因):
✅魯米(Rumi,1207–1273。是13世紀波斯著名蘇菲派神秘主義詩人)
✅哈菲茲(Hafez,1315–1390。為最有名的波斯抒情詩人,常被譽為詩人的詩人)
數據主要收錄上述等人物相關聯的浪漫敘事。這種平均化機制忽略了日常伊朗文學中更不可見的層次。

在「更好的詩歌傳統」地圖中,儘管波斯語數據稀少,伊朗卻位居榜首。來源:本研究。
4️⃣類型偏見(Trope Bias)
指 LLM 傾向於回收文化中熟悉但淺薄的聯想,即「算法陳詞濫調」。
- 無害的偏見?:
諸如「牙買加人有天生的節奏感」或「中國人愛讀書」等熱門媒體刻板印象,因為不屬於仇恨言論,能輕鬆通過 RLHF(人類回饋強化學習)過濾器並被放大 。
案例分析:
關於「哪裡的人更吝嗇」(Where is stingier),北韓被排在首位,儘管缺乏可靠數據,這反映了其在媒體中的普遍負面報導 。
在「生活氛圍更好」(better vibes)的查詢中,哥斯大黎加奪冠,很大程度上是因為其「Pura Vida」(純淨生活)哲學在旅遊寫作與社群媒體中的高度流傳。
當然,若是以在社區尺度上,當被問及紐約、倫敦或里約熱內盧「哪裡的人更美麗」時,ChatGPT 傾向於偏好那些白人比例更高、更富裕的社區。矽谷凝視在此將白度與富裕壓縮為「美麗」與「渴望」的代名詞。

在「生活氛圍更好」的查詢中,哥斯大黎加奪冠,很大程度上是因為其「Pura Vida」(純淨生活)。來源:本研究。
5️⃣代理偏見(Proxy Bias)
當模型將「可測量的」與「有價值的」混為一談時,就會產生代理偏見 。
- 技術官僚邏輯:模型不具備理解「藝術活力」或「感官生活氛圍」的能力,因此它轉而尋求可計算的替代指標(如聯合國教科文組織遺產數量、米其林星級等)。
- 結果:這種邏輯優先考慮已被國際機構審計的地方,而使本土形式的遺產或生活氛圍在統計上隱形 。
案例分析:
在美國「幸福人口」的地圖中,排名與人均預期壽命、戶外休閒評分及中位收入高度重合 。這強化了一種狹隘的、數據驅動的幸福觀,對齊了財富與長壽,卻忽視了以社區為中心的福祉理解。
同樣地,在「創業精神」的排名中,美國與以色列得分最高,因為模型使用的潛在代理指標是「風險投資密度」,而全球南方常見的非正式經濟與嵌入式創新則逃過了這些指標的監視,被視為創業精神的缺失。

在「創業精神」的排名中,美國與以色列得分最高。來源:本研究。
轉向技術治理與識讀
面對如此深厚的結構性力量,簡單的技術修補(如增加更多數據或調整公平性指標)無法觸及核心問題 。研究者呼籲將其視為一個治理問題而非純粹的技術問題 。
企業設計目標
透明度儀表板:企業應提供地理拆分的可見性儀表板,報告數據源的多元性及各地的拒絕率(Refusal rates),幫助使用者理解模型的局限 。
權重本地聲音:賦予社區產出的資訊更多權重,例如與數位化程度較低的本地檔案館合作,並給予公平補償與治理權 。
偵測類型化模式:特別是在涉及歷史上常與種族、性別關聯的社會特徵(如文明程度、能力)時,模型應被要求提供明確證據而非僅僅是關聯 。
政策響應
強制性報告:監管機構應要求針對地方偏見進行地理拆分的績效報告,以便進行獨立審查與跨模型比較 。
公共部門謹慎使用:國家在分配資源或涉及公民權利的決策中,使用生成式 AI 應保持高度警惕,並強制執行人類介入檢查(Human-in-the-loop)。
矽谷三檢定
儘管平台化的模型傾向於提供一種權威、簡化的世界觀,我們必須主動擁抱地方的複雜性 。在日常進行涉及地理的 AI 查詢時,研究者建議進行三個快速測試 :
- 可見性測試(Visibility Test):問問誰不見了?哪些地區被完全忽略了?
- 代理測試(Proxy Test):問問背後是在使用哪些「可測量的替代指標」在運作?(例如是否用財富在衡量幸福?)
- 類型測試(Trope Test):問問這段文字讀起來是否像是一個陳詞濫調或文化刻板印象?
唯有具備這種批判性的集體素養,我們才能挑戰那層由矽谷交織而成的、複製著昨日等級制度的未來 。




















