在呼籲「不說支語」時,AI時代更根本性的失語問題

更新 發佈閱讀 8 分鐘

一、ChatGPT又在一本正經的胡說八道?

畢業季到了,我為即將離校的導生挑選畢業禮物:一本適合他們的書。既然我已經訂閱了ChatGPT Plus,當然也想看看它能否擔任一位稱職的選書顧問。

我請學生填完一份閱讀與性格問卷,再請ChatGPT協助分析並據此推薦。書單陸續出現了:

-《人間失格》 太宰治

-《少年巴比倫》(簡體) 路內

-《深夜加油站遇見蘇格拉底》 Dan Millman

-《解憂雜貨店》 東野圭吾

-《夜晚的潛水艇》 吳明益

-《其實你沒有那麼孤單》 周慕姿

-《人生路引》 李欣頻

-《我想跟你好好說話》 陳志恆⋯⋯

一切看似順利,但當我進一步核對書籍資訊時,問題浮現了。有些書名對、作者對不起來;有些出版社錯置;有些書甚至根本不存在。

像《夜晚的潛水艇》確有其書,但作者並非吳明益;而《其實你沒有那麼孤單》,這看起來更像是某首流行歌名而不是書籍。然而AI並非隨機生成一堆書名給我,因為英譯及日譯作品幾乎沒有這個問題,但它看起來無法正確指認中文出版品

反覆追問ChatGPT後,我歸納出兩個關鍵性原因:第一,臺灣出版品的書名常趨於詩意與語錄化,語義結構模糊,使得語言模型難以分類、辨識主題與風格。第二,也是真正的核心問題:臺灣出版品的資料,語言模型幾乎無法讀取與使用。

這不只是AI生成了有問題的書單,而是語言文化在AI模型裡中「資料失語」。

二、AI讀不到臺灣出版品的資料會發生什麼事?

更讓我警覺的是,ChatGPT在推薦中國大陸出版品時,出錯的比率明顯較低。這揭示了一個事實:AI 這次的錯誤,並不在於「中文本身的特性」,而在於臺灣出版品的書面語料,是否以結構化方式進入語言模型的學習系統。

在語言模型不斷迴圈學習、快速重構語言的時代,若我們只關注「抖音」「小紅書」等社群媒體帶來的非本土詞彙,而忽略更深層的語料結構問題,後果將遠比語彙借用更為深遠。我們將會面臨以下幾種後果:

—我們將難以透過指令,精準生成「臺灣語境」的內容,因為模型背後缺乏相關語料

—下一代的語言認知,在與AI密集互動中,會逐步向非母語語法靠攏

—中文生成語體將在無自覺中,漸漸趨近北京語言思維與語氣邏輯

這些語言偏差,包括AI無法生成貼合本土語境,或是生成語言功能與語法逐漸偏向他者的語言結構等……背後不只是語彙的挪用問題,而是整個語言模型的學習系統中,我們的語言無從被有效辨識與讀取。許多臺灣出版品對人類讀者而言極富語感,但對語言模型來說,這些語言是沉默的。這不只是類似「支語」(儘管我不太喜歡這個詞彙)大幅進入臺灣日常對話中的問題,而是每次我們跟AI互動、使用AI生成的內容,都可能讓臺灣自己的語言在資料層面退場,而我們卻不自知。

諷刺的是,就連「生成」這個技術關鍵詞,本身也是來自中國科技語境中的翻譯與流通;如今我也不可避免地使用它,因為ChatGPT教會了我這個詞。

三、AI需要什麼樣的語言資料?

語言模型所依賴的,並不是單純的書目列表,而是可供學習的語言地圖。相比人類可以靠直覺找到路,AI需要一座有標籤、有座標、有路標的語言城市,才能在裡頭走路、辨識方向、建立意義。在這座城市裡,「書名」是建築物,「主題分類」是街道區域,「功能性關鍵字」像是門牌與路標,以上缺一不可。現今大多數語言模型仰賴的語意系統,不是單點資訊的收集,而是語意網絡與知識圖譜的建構:它要知道哪本書與哪個主題有關、哪句評論是支持還是批判、哪些語句帶有說服、分析、敘述等功能,以及它們常出現在哪類文本中。

臺灣長期把出版當作內容產業,卻未能將書目當成語言基礎建設來維護,這一點目前遠落後於歐美國家、日本,甚至是中國。網路書店的資料格式為行銷設計,而非為語言模型學習設計;我們有排行榜、有行銷標籤、有作者語錄,卻缺乏明確主題分類、副標結構、統一分類標準及功能性關鍵字連結,也沒有結構穩定、可被引用的書評資料平台。

而其他語言文化早已開始行動。中國有豆瓣,日本有讀書メーター與國立國會圖書館,歐美則有 Open Library、Goodreads 等平台,這些資料庫讓語言模型不只是「知道一本書存在」,更能理解它「在語言世界裡的位置」。臺灣的資料,在技術層面上是「可見但不可學」;AI看得到,卻無法學習。

四、我們不是有國圖嗎?

事實上,國家圖書館早已建立完整的書目資料庫,許多書籍具備清楚的分類與館藏紀錄。然而,這套系統設計的主要目的,是服務人工檢索與紙本典藏,並未針對語言模型的學習邏輯優化。即便國圖未來完成書目格式轉換,也只能讓語言模型掌握「書的存在」。但語言真正的脈絡,來自人們如何討論一本書、如何評論一段敘述、如何辨識語言中的意圖與情緒。若我們沒有讓語言在公共平台中被再使用、再評論、再標註,那AI終究也只能停留在名為「書本」的建築物前,而無法打開門走進去。

臺灣現存的書籍資料,就像一座沒有地圖的城市。書在那裡,路也在那裡,但沒有座標,沒有路牌,語言模型只能「用猜的」來理解這片語言地景。而我們目前的資料形狀和邏輯,已不符合AI時代機器學習的方式。國圖書目的資料雖豐,但尚未轉化為語言模型能理解與運用的格式,如 RDF、JSON-LD 或 schema.org 所支援的結構。也因此,我們眼前有資料,但語言模型看不見;語言模型看到資料,卻無法真正「學會」它。

AI世代所需要的,也不只是一本書的資料欄位,而是一個能讓語言在公共空間中活著的平台。閱讀行為不該只停留在「讀」,而要能被記錄、被評論、被交叉引用,這樣才能構成語言存活的痕跡。而這樣的平台,至今在臺灣仍是空白。臺灣的書評散落於社群、貼文與電商平台,缺乏系統的一致性與結構化。如果我們不為語言留下這些可學的軌跡,那麼在AI眼中,它將永遠只是「說過」,而不是「正在被使用」。

五、我們的語言,在AI的世界裡還是語言嗎?

當網路上呼籲「不說支語」,其實也是在捍衛一種語言的文化完整性。但語言的存在,不只是聲音、字詞與句型的排列,而是它能否在新環境中被理解、被使用、被延續。AI所呈現的語言偏差,也許並不是一種入侵,而是一種映照:映照出我們尚未替自己的語言建好能被閱讀與學習的空間。

語言的消失,從來不是突如其來的沉默,而是長久以來缺乏可學、可對話、可辨識的痕跡。而在AI不斷學習的過程中,語言不是只是被使用,而是在被重新定義。

這場語言的重組,正在AI時代中發生,而我無法預期它的速度。它不是透過文學經典或母語教學,而是透過平台、格式、分類與評論的存在與缺席,不斷以指數速度放大。面對這些由平台、格式與演算法建構而成的語言框架下,要如何讓屬於我們的口吻、我們的說法、我們的思辨方式得以留下?

如果我們在呼籲「不說支語」的同時,卻沒有為自己的語言建好被閱讀的條件、被學習的基礎,那麼在未來的語言模型中,我們的語言將不再被視為語言,而只是未分類的文字資料。

留言
avatar-img
胡言胡語
4會員
44內容數
不是因為懂,所以寫。 是因為寫了,才開始理解。
你可能也想看
Thumbnail
今天又發現ChatGPT的一些缺點, 使用時需要很準確的提供你想要表達的文字(我覺得還蠻重要的) 又或者拿一些範例給它看, 它就能更準確的回答問題, 因為今天我發現有一篇文章和之前寫過的完全一樣了, 所以又要再請ChatGPT生成30則勵志英文短文, 結果之前發問的問題已經消失了, 又
Thumbnail
今天又發現ChatGPT的一些缺點, 使用時需要很準確的提供你想要表達的文字(我覺得還蠻重要的) 又或者拿一些範例給它看, 它就能更準確的回答問題, 因為今天我發現有一篇文章和之前寫過的完全一樣了, 所以又要再請ChatGPT生成30則勵志英文短文, 結果之前發問的問題已經消失了, 又
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們把 AI說書 - Prompt Engineering - 55 和 AI說書 - Prompt E
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們把 AI說書 - Prompt Engineering - 55 和 AI說書 - Prompt E
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 針對Generative AI、Foundation Model、Large Language Mode
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 針對Generative AI、Foundation Model、Large Language Mode
Thumbnail
為了充分發揮AI的潛力,我們必須深入瞭解其運作模式和思考邏輯,並學會與AI對話的技巧。《ChatGPT提問課,做個懂AI的高效工作者》這本書提供了豐富的實例,讓讀者更容易學會如何提出精準的問題,並享有提問課程的閱讀回饋。這對於想成為懂AI的高效工作者的人來說,是一本值得一看的書。
Thumbnail
為了充分發揮AI的潛力,我們必須深入瞭解其運作模式和思考邏輯,並學會與AI對話的技巧。《ChatGPT提問課,做個懂AI的高效工作者》這本書提供了豐富的實例,讓讀者更容易學會如何提出精準的問題,並享有提問課程的閱讀回饋。這對於想成為懂AI的高效工作者的人來說,是一本值得一看的書。
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在AI說書 - Prompt Engineering - 2中,我們已經以文字敘述各種AI的範疇與其思想
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在AI說書 - Prompt Engineering - 2中,我們已經以文字敘述各種AI的範疇與其思想
Thumbnail
教你3種方式跟ChatGPT練習英文口說 ➊ 付費版 探索GPT ➋ 付費版 ➌ 免費版
Thumbnail
教你3種方式跟ChatGPT練習英文口說 ➊ 付費版 探索GPT ➋ 付費版 ➌ 免費版
Thumbnail
這是一篇關於如何透過教育ChatGPT來做營銷的文章,包含了指令和課程內容的相關信息。
Thumbnail
這是一篇關於如何透過教育ChatGPT來做營銷的文章,包含了指令和課程內容的相關信息。
Thumbnail
利用AI來輔助學與教,已成為許多教師(甚至學生自己)的新選擇。AI不僅可以作為知識查詢的工具,還能透過互動遊戲的方式,使語文學習變得更加生動有趣。 這次示範採用電話應用程式POE中的chatGPT。 原因是用電話app更有「玩遊戲」的感覺,而且香港暫時未能直接使用OpenAI服務。 成語接龍
Thumbnail
利用AI來輔助學與教,已成為許多教師(甚至學生自己)的新選擇。AI不僅可以作為知識查詢的工具,還能透過互動遊戲的方式,使語文學習變得更加生動有趣。 這次示範採用電話應用程式POE中的chatGPT。 原因是用電話app更有「玩遊戲」的感覺,而且香港暫時未能直接使用OpenAI服務。 成語接龍
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News