我自己用了一段時間的生成式AI體驗非常的不錯,不過只要遇到過於本土化的資料,有時候並不是那麼容易找到。最近剛好遇到了一件事情讓我重新去思考一下是不是在我們台灣的公共圖書館可以做些什麼來協助未來台灣在訓練AI模型的時候有足夠的資料可以使用。
這個問題的開始是因為我一位轉任圖書館的同事有機會聊了一下,他秀了一些資料給我看,目前有人捐給圖書館一些書籍,數量大約有六十幾冊,希望藉由圖書館的力量把這些東西散布出去。我想這位捐贈的人在他要出書之前,應該都有先將這些文字圖片數位化,如果能夠將這些東西儲存在圖書館的數位資料庫中,並且提供一些適當的授權,讓圖書館的使用者可以在遵守授權的狀況下合法且合理的使用這些原始資料呈現不同的輸出,這樣子這些原始的資料除了可以更廣泛的散布外,更可以提供更多以前想像不到的用途。另外一個是我自己的經驗,我小時候居住在高雄的旗津,這個離島在過港隧道挖掘之前,有一座國小叫做"中和國小"。在早期的航照圖裡面,我們也可以看到"中和國小"這一個學校的資訊。
這些航照圖一般是存在圖書館的地圖櫃裡面,可是你想想現在你在哪間圖書館還能看到地圖櫃呢?所以當我後來因為某種用途,又要找這一份航照圖時,回到大學的圖書館這份航照圖已經不見了,即便是我跑到了當地的地政事務所他們也說他們沒有這張圖。
不過幸好中研院有個計劃把以前一些老地圖掃描起來,讓我們可以在Google圖層上面堆疊。透過這樣子方式,我們不僅可以看到一些老地景或是老地名以往的位置,甚至可以看到海岸線的變化 。透過下面三張圖的變化,我們可以看到現在過港隧道的路線在以前有一所「中和國小」(名稱隨著時間改變,有些時間是分校,有些時間是國小),也有一個中和里。當我在中研院這個系統上發現這些圖片的時候其實我是蠻感動的,因為我花蠻多的時間一直在尋找紙本,卻沒想到透過這些數位紀錄的保存,我可以在任何一個可以連上網路的地方,再次把這一段歷史找出來。甚至是如果有機會找到當地的耆老做訪談時,也可以透過這些具體的地圖喚起以往的記憶。
不過這都無法促使我寫一篇這麼長的文章,促使我寫這篇文章更重要的引發點是我蠻喜歡在公共圖書館的雜誌堆裡面找尋有趣的雜誌。有一天我剛好就這樣莫名其妙地找到了一本原住民的雜誌
以往我對於原住民雜誌的認識比較刻板,感覺上應該比較沒有那麼貼近青少年實際的生活。可是那天看到那本雜誌之後,我看到他的封面介紹的竟然是A I。加上就我研究了那麼久的AI來講,我覺得這個編輯者在這個議題的選材和編寫方面應該下了不少的功夫,確實有認真思考AI能夠為原住民提供哪些文化記憶保存的工具。在裡面也提到了面對AI這個科技工具的轉變,原住民該了解什麼。以這本雜誌為起點,我持續不斷地追下去才發現原來它已經出了蠻久,據我在原住民實驗學校服務的學姐說他們也都會收到這個紙本的雜誌。
雖然讀紙本雜誌還不錯,但是現實的狀況是紙本的雜誌通常因為圖書館的空間,所以大概只會陳列當期或者是前一兩期,可是以這邊的整個量來講的話,他大概就必須收藏在比較專業的圖書展示櫃裡面,那你才有辦法去將其他不同期別的雜誌收納進來。
如果有一個青少年對原住民文化有濃厚興趣,當然可以透過紙本去把各期都讀過,如果學校對紙本保存狀況夠好,冊數也都齊全的話。另外也有另外一種方式,就是透過「生生有平板」的方式來閱讀數位的期刊。雖然閱讀敢跟紙本有點不一樣,但是數位也有數位的好處。可以透過圖片的搜集,讓AI去幫你比對不同期數中你想比較的的內容,也可以透過數位搜尋快速找尋期刊中的特定文字
更讓我驚訝的是,這本雜誌的出版者是原民會,也就是這竟然是政府出版品,做得好精緻啊!公務機關基本上不以營利為目的,而且這些財產應該也是屬於國家與全民的財產。如果我們今天有機會把這些資料數位化甚至把它變成一個原住民的資料庫,讓我們台灣本土的AI,可以透過這些很棒的資料來訓練,這樣子我覺得對於日後原住民文化的研究跟保證都會有一定的幫助。
特別是在原住民文化裡面非常重要的族語部分,隨著耆老的凋零,某些特定語言可能會逐漸找不到能夠流利敘說的人。但是如果趁這些耆老還健在的時候,善用AI科技去保存這些語言。不僅僅是當作文化的保存,甚至是在這些基礎的資料之後,我們還可以透過他來讓學生練習對話或是學習。
在這一期(114期)的雜誌裡面也有提到其他國家有類似的做法,我想以台灣的科技來講,只要願意做,應該更沒有問題。剛剛講的可能只有文字、圖片,但是如果對於一些更重要的原住民的器物,例如說以排灣族來講,有陶壺、琉璃珠、青銅刀這些寶物,變可以透過適當的3D掃描,來保存這些器物的高精密模型,讓有興趣的學生可以更深入的去研究甚至是有機會透過AI從一些已經3D掃描過的模型裡面,檢視到以往不曾有的發現。(下面我提供一些類似的應用,例如google art & Culture)
高畫質掃描翠玉白菜
所以我的建議是短期間,我們可以試著讓政府的出版品中可以數位化的元素變成全民可用的數位資產。如果已經是用刊物的方式呈現的,我們也可以提供這些刊物的數位化作品,放在公共圖書館裡面讓需要閱讀的人不論在什麼地方都可以透過適當的管道接觸到這些出版品。
而需要做研究或者是思考要將這些數位資料庫轉換成不同形式的人,只要在合理的授權條件下,也可以順利地去接觸到這些素材來做二創,我想整體來講不管是對於我們文化的保存或持續對於我們AI的訓練及應用都會有蠻不錯的幫助。