隨著AI生成文本的普及,人們越來越常遇到讀起來「怪怪的」文字,但究竟為何「怪」卻難以言喻。美國東北大學(Northeastern University)研究團隊試圖解答這個問題,他們分析了人工智慧生成文本的句法特徵,發現AI模型生成的句法結構(如名詞、動詞、形容詞的排列方式)存在高度的重複性。這項研究發表在arXiv的預印本平台上。
研究團隊檢視各種AI生成的文本,包括電影評論、新聞摘要及生醫研究文章,並發現了AI生成文本中常見的句法模板(syntactic templates)。如在描述電影《The Last Black Man in San Francisco》時,AI使用了「獨特且深刻」「高度原創且令人印象深刻」等雙形容詞結構。而這些重複性較高的語法,在人類文本中則明顯較少。
研究者進一步指出,這些句法模板的來源約有75%來自AI的訓練數據,而不是AI即時生成的創新結果。值得注意的是,雖然不同的AI模型會展現出不同的句法模式,且並不隨模型大小而改變,但在更具創意性的文類(如電影評論和新聞)中,AI生成的句法重複度顯著高於人類。而在要求嚴格的生醫寫作中,人類和AI的句法差異則相對較小。
這項研究並非為了提供判斷AI生成文本的絕對方法,而是提供一種新工具來理解和分析AI文本的「公式化」特徵。該研究拓寬了AI文本分析的框架,使人們不僅能關注特定詞彙,也能更全面地辨識AI文體的特徵,尤其在連續閱讀多篇AI生成的文本時,這套方法能幫助理解這些文本為何會讓人感到「不太自然」。
資料來源
How can you tell if text is AI-generated? Researchers have figured out a new method