「透過再去訪談我們才知道還有這種說法..(略)
舉個例子 泰雅語 挖地的挖(如有錯誤請指正)
目前辭典有三種說法但在訪談後
我們才發現竟然有十一種說法我們有沒有可能用維基百科來記錄其他的說法」
這是摘自 COSCUP 2024 台灣語言峰會(原始錄影可參閱:g0v.social/@Allenwan…)
族人夥伴對於維基百科或是維基社群給予的回饋與建議
誠如過去我常提到的:我總是在演講中提到華語的數位基礎建設相當不足
縱然過往臺灣的政府單位如: 文化部 、 中研院還有國家圖書館等機構都在為臺灣、華語的數位、數位化資料做基礎資料建設相關的數位化典藏計畫
甚至早在文建會時期就已經開始到現場還有國家文化記憶庫等新的典藏、應用與轉譯計畫
但若從近年的語料以及LLM(Large Language Model,大型語言模型)的議題
再看到已經在全球推展數年的鏈結資料 (Linked Data)甚至到臺灣最引以為傲的開放資料領域 Open Data你都可以看到華語資料在全球尺度下是多麼弱勢
那我們再轉來看的原住民語那又是怎麼樣的一個情景
即便不討論原住民與看到台語、客語還有馬祖話還有多少的數位基礎工程工作要做過去我曾用「建構族語鏈結開放資料? Wikidata 上賽德克語的應用現況」為題
到埔里賽德克的夥伴那邊分享我的所見「臺灣有多少的開放資料是以族語書寫的?」一語到破現在族語數位資料基礎建設的問題而這些問題也是在臺灣這塊土地上面非華語(甚至包含華語)都必須面對的問題
寫到這邊並沒有要指責誰或哪個單位的不是
上面點名的單位也是希望大家可以去看看這些單位做了哪些酷事情
像是中研院有一個單位專責維護華語的建築與藝術索引典
除了將外文語彙進行華語翻譯與驗證外
也同步在華語辭彙彙編提供讓全球社群共同翻譯與驗證並釐清相關實體的分類與階層歸屬
如此「無聊」的基礎資料維護工作卻是組成網際網路的龐大、巨量資料的核心基礎建設可是少有人會關注這塊也少有人想到:嘿!OO語也要做這個!
我們還有很多工作可以做
AI 或許可以幫忙但還有太多工作還沒做了
[ COSCUP 2024 台灣語言峰會]
時間:20240803 13:00–16:00
地點:台灣科技大學 TR615 教室