最近參與某專案的過程,接觸到AI訓練資料的標註。簡單來說,就是閱讀一些文本,人工判斷文章的立場和想傳達的訊息。
為了比對人工標註和AI標註的差別,我先自己標註一次,再請AI標註同樣的內容。結果發現,AI標註的結果沒錯,但會省略、合併某些很細微的文字線索,而些微的文字差異,就可能對訊息判讀產生關鍵的差異。
以香菜為例,舉個例子說明:A:在美食專家眼中,香菜「極可能被認定為」台灣小吃的靈魂。
B:對一些美食專家而言,香菜「可能是」台灣小吃的靈魂。
在人工標註時,我可以很直覺的區辨兩句話訊息並不完全相等,前者對推廣香菜有滿滿的愛,後者更像是帶有距離的客觀陳述。如果再考量到A和B所刊載的媒體差異,A是一本推廣香菜的農產雜誌,B是一本寫給一般大眾的美食雜誌,箇中差異就更加明顯。
但詢問ChatGPT和Gemini,如果沒有特別給提示,對通用型AI語言模型而言,這兩則訊息的立場基本上會被判別為相同。
在深入探究這種差異的過程,我學會了一個名詞,叫「資料平滑化」(data smoothing)。統計學在處理資料的過程中,會將和平均值差異較大的離群值視為干擾的「雜訊」,並將之移除,以便掌握長期趨勢。
人文社科領域的文本資料具有高度岐異性,閱讀、詮釋,高度仰賴上下文情境以及文本之外的社會脈絡,當AI以處理數據的邏輯處理承載人類充滿情感、立場、慾望的文本,可以想見其間細緻的差異也會被「平滑化」。於是我們得到愈來愈無聊、愈來愈平均的AI創作。
越是理解AI,就越是感到人的價值與珍貴。













