
非洲大陸上估計超過 2000 種語言中的大多數面臨著一個轉化的障礙。Photo by Ninno JackJr on Unsplash
本文參考自 BBC 報導《Lost in translation — How Africa is trying to close the AI language gap》
目前主流的 AI 工具,包括 ChatGPT, Claude 等廣為人知的系統,主要基於英文、其他歐洲語言以及中文進行訓練。這些語言擁有豐富的線上文本資源,為 AI 系統提供了充足的學習材料。然而,非洲大陸上估計超過 2000 種語言中的大多數面臨著一個轉化的障礙:
這些語言主要以口語形式存在,缺乏足夠的書面文本來訓練 AI 系統。
語言數據荒漠
由於缺乏訓練數據, AI 工具無法有效服務於這些語言的使用者;而缺乏 AI 支持,又進一步限制了這些語言在數位時代的應用和發展。對於數百萬非洲人而言,這意味著被排除在 AI 革命的益處之外。南非比勒陀利亞大學(University of Pretoria)計算機科學教授 Vukosi Marivate 深刻地指出了這個問題的核心:
我們用自己的語言思考,用它們做夢,藉由語言詮釋世界。如果技術不能反映這一點,整個群體就有被遺留的風險。我們正在經歷這場 AI 革命,想像著它能做到的一切。現在想像一下,有一部分人口僅僅因為所有資訊都是英文的,就無法獲得這種機會。

南非比勒陀利亞大學計算機科學教授 Vukosi Marivate。來源:南非比勒陀利亞大學
African Next Voices
為了應對這一挑戰,一個由語言學家和計算機科學家組成的國際團隊啟動了具有開創性意義的 African Next Voices 項目。這個項目獲得了比爾及梅琳達.蓋茨基金會 220 萬美元的資助,創建非洲語言的 AI 數據集。
在兩年的時間裡,研究團隊橫跨肯亞、奈及利亞和南非三國,記錄了 9000 小時的語音數據,涵蓋了農業、健康和教育等日常生活場景。
項目包含了 18 種非洲語言,其中包括肯亞的基庫尤語和盧奧語、奈及利亞的豪薩語和約魯巴語,以及南非的祖魯語和溫達語等,這些語言的使用者數量達到數百萬人。

African Next Voices 於校內的工作坊。來源:Maseno University
雖然 18 種語言相對於非洲大陸超過 2000 種語言而言只是滄海一粟,但這個項目的意義遠超其規模。African Next Voices 建立了一個重要的基礎,未來的研究者和開發者可以在此基礎上繼續擴展和創新。
計算語言學家 Lilian Wanzare 作為該項目的肯亞研究負責人,強調了本土化數據收集的重要性:
我們收集了來自不同地區、年齡和背景的聲音,使其盡可能具有包容性。大型科技公司往往無法看到這些細微差別。
語言是想像力的途徑
然而,非洲語言 AI 發展的意義遠超商業便利性和技術進步。
Marivate 教授提出了一個更為根本的觀點:語言是獲取想像力的途徑。語言不僅僅是文字,更是歷史、文化和知識。如果不包括本土語言,我們失去的不僅僅是數據,還有看待和理解世界的方式。
這個觀點揭示了當前 AI 發展模式的一個重大缺陷:過度依賴主流語言可能導致文化同質化,使得人類豐富的語言和文化多樣性面臨消失的危險。每種語言都承載著獨特的世界觀、思維方式和文化智慧,這些都是人類文明寶貴的組成部分。
在全球化和數位化的雙重壓力下,許多小眾語言正面臨著前所未有的生存危機。如果 AI 技術繼續忽視這些語言,可能會加速這個趨勢,導致不可挽回的文化損失。