📝📝:不存在的堡壘、畸形的手部、七趾的腳|AI 生成的內容正在汙染維基百科

閱讀時間約 5 分鐘





【本文翻譯自 The Editors Protecting Wikipedia from AI Hoaxes




一群 Wikipedia 編輯組成了名為「WikiProject AI Cleanup」的團隊。目標是清理未經引用文筆拙劣的 AI 生成內容,以保護這座全球最大的資料庫,避免受到錯誤條目的汙染。

這些 AI 生成的錯誤資料,不僅影響了 Google 搜尋結果,其中也包含亞馬遜銷售的書籍;甚至,學術期刊也面臨類似的問題。

不自然的寫作風格

WikiProject AI Cleanup 的創始成員 Ilyas Lebleu 表示:

這個專案的發起源自於部分成員注意到一些 Wikipedia 不自然的寫作風格

編輯們猜測這些風格來自 AI,他們也成功用 ChatGPT 再製了這些文類風。Lebleu 提到:

「找到了幾個常見的 AI 生成用語後,我們就能迅速識別出惡劣的生成內容,並將這些技術整理成一個有系統的專案。」

使用 AI 偵測法識別生成內容

WikiProject AI Cleanup 小組使用,類似於在科學期刊和 Google Books 中尋找 AI 生成內容的方法來檢查 Wikipedia。他們透過搜尋 ChatGPT 常用的詞組來鑑定 AI 生成內容。

其中一個顯著的例子是關於切斯特精神健康中心(Chester Mental Health Center)的條目。該條目在 2023 年 11 月曾包括這樣一句話:

「截至我最近一次知識更新在 2022 年 1 月」

明顯是 AI 模型生成的內容。

不存在的堡壘

然而,並非所有 AI 生成內容都如此容易檢測。另一位成員 Queen of Hearts 發現了關於鄂圖曼堡壘「Amberlisihar」的條目。這篇超過 2000 字的文章寫得非常有條理,甚至包含了:

  • 堡壘名稱
  • 建造細節
  • 參與的建築師

以及該堡壘在第一次世界大戰期間,受到俄軍轟炸後的修復工作;然而,這座堡壘根本不存在。

raw-image

Lebleu 解釋道,假的引文是更具隱匿和危害的問題。因為這些引文可能需要好幾個月才能被察覺,有時,AI 生成的文本會引用真實的學術資源,但引用內容與文章內容毫無關聯。

例如,編輯就有發現一篇關於某種甲蟲的 Wikipedia 條目,引用了一篇法語期刊文章。而實際上那篇文章討論的,是一個完全無關的蟹類物種。

偵測 AI 生成圖片的挑戰

WikiProject AI Cleanup 也處理了AI 生成圖片的問題。團隊在處理一篇關於「Darul Uloom Deoband」的條目,發現了一張看似相關的歷史畫作。

但仔細檢查後發現圖片中的人物,有著明顯的 AI 生成特徵。像是,畸形的手部和一隻七趾的腳。

AI 生成的人手有著相當拙劣的錯誤。由 Leonardo ai 生成。

AI 生成的人手有著相當拙劣的錯誤。由 Leonardo ai 生成。

儘管如此,WikiProject AI Cleanup 仍表示,他們不會僅僅因為圖片是 AI 生成的就移除。如果一篇文章討論到 AI 生成的圖片,那麼這些圖片在條目中就有其存在的合理性。

WikiProject AI Cleanup 所面臨的挑戰之一,是如何平衡 AI 技術的使用與確保條目的準確性。雖然有些 AI 工具(如 GPTZero)已經被作為偵測 AI 生成內容的手段,但 Lebleu 表示這些工具的效果有限,尤其是針對較新的語言模型。

人工審查的重要性

Wikipedia 目前在辨識和過濾 AI 生成內容方面更有效。部分原因在於維基百科長期依賴志願者,來審查新文章並驗證條目以及引用來源。

然而,WikiProject AI Cleanup 的成員也承認,雖然 Wikipedia 社群偵測 AI 生成內容已經做得不錯,還是有許多 AI 生成的內容沒有被及時察覺。

而 Lebleu 和 Queen of Hearts 也都認為,許多大公司在檢測和移除 AI 生成內容成效仍有待加強。他們如果能分配適當的資源,應該能比 Wikipedia 的編輯志工做得更好。

79會員
204內容數
從物理到電機工程再轉到資訊傳播,最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、傳播理論、社會學、心理學、哲學游移;期盼有天無產階級可以推倒資本主義的高牆的兼職家教。
留言0
查看全部
發表第一個留言支持創作者!
社會人的哲學沉思 的其他內容
《誰偷了垃圾桶》將劇中設定成接受賄賂的印度社會,或多會少也反映了印度的現狀,也因此馬哈拉賈以及瓦拉達拉傑督察,兩人之間的正面與負面行動反而能相輔相成。
4/5誰偷了垃圾桶?
椅子並非人類文化發展的必然結果。世界上不同的文化發展出不同的坐姿,坐椅子的需求是人類社會的一種發明。
不過,椅子最初的設計,根本不是朝著舒適設計。椅子,實際上,是區分彼此位階的一個重要物件。擁有較大權力、高高「在上」的人,才有坐椅子的資格,至今,我們仍舊可以在教室、教堂、法院、議會看到這樣的設計。
近期,吳慷仁赴陸簽約新的經紀公司 引發台灣社會不小的轟動 更讓人非議的 10/1(二)的午夜便在微博慶祝「錦繡中國」快樂 許多網民開始議論這是「預謀許久的賣台計畫」
o1 堪稱有著人類博士生的推理能力,對於科學、數理有更高的應對技巧。o1 以及 o1 mini 模型具有一些顯著的特色和優勢,讓最新的模型在許多方面超越了之前的 4o 以及 4o mini。
GoingBus 前幾年已經在韓國、中國市場相當盛行,台灣則是近半年才開始有合作的拓展。Google 關鍵字一搜尋至少能看到三個頁面的介紹,當然,也有人發文詢問 GoingBus 是否為詐騙平台。
《誰偷了垃圾桶》將劇中設定成接受賄賂的印度社會,或多會少也反映了印度的現狀,也因此馬哈拉賈以及瓦拉達拉傑督察,兩人之間的正面與負面行動反而能相輔相成。
4/5誰偷了垃圾桶?
椅子並非人類文化發展的必然結果。世界上不同的文化發展出不同的坐姿,坐椅子的需求是人類社會的一種發明。
不過,椅子最初的設計,根本不是朝著舒適設計。椅子,實際上,是區分彼此位階的一個重要物件。擁有較大權力、高高「在上」的人,才有坐椅子的資格,至今,我們仍舊可以在教室、教堂、法院、議會看到這樣的設計。
近期,吳慷仁赴陸簽約新的經紀公司 引發台灣社會不小的轟動 更讓人非議的 10/1(二)的午夜便在微博慶祝「錦繡中國」快樂 許多網民開始議論這是「預謀許久的賣台計畫」
o1 堪稱有著人類博士生的推理能力,對於科學、數理有更高的應對技巧。o1 以及 o1 mini 模型具有一些顯著的特色和優勢,讓最新的模型在許多方面超越了之前的 4o 以及 4o mini。
GoingBus 前幾年已經在韓國、中國市場相當盛行,台灣則是近半年才開始有合作的拓展。Google 關鍵字一搜尋至少能看到三個頁面的介紹,當然,也有人發文詢問 GoingBus 是否為詐騙平台。
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
用 AI 製作一張專屬巴黎奧運的紀念海報吧~
Thumbnail
這是一篇描述測試AI功能的文章,內容是一些隨心所欲的想法和想像,引導讀者思考現實世界及經歷。文章內容充滿了一些具有戲劇性和冒險色彩的詞彙和描述。
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
科技發達,AI智能也越來越發達。 蠢孩子,我每篇小說的圖片都是用AI製作的唷!!
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
AI雖然很厲害..但BUG也不少.... 也開一個系列吧. .#tengr #BUG
Thumbnail
AI記者的定義 AI記者是一種利用AI智慧生成技術來自動創作新聞稿的應用。它基於機器學習和自然語言處理技術,旨在模擬人類記者的寫作風格和邏輯思維,以生成高質量的新聞內容。
Thumbnail
AI幫助創作者進行內容分析,提供發布設定的最佳建議,包括標題設定、文章分類、本文摘要、瀏覽縮圖和關鍵字設定。
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
用 AI 製作一張專屬巴黎奧運的紀念海報吧~
Thumbnail
這是一篇描述測試AI功能的文章,內容是一些隨心所欲的想法和想像,引導讀者思考現實世界及經歷。文章內容充滿了一些具有戲劇性和冒險色彩的詞彙和描述。
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
科技發達,AI智能也越來越發達。 蠢孩子,我每篇小說的圖片都是用AI製作的唷!!
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
AI雖然很厲害..但BUG也不少.... 也開一個系列吧. .#tengr #BUG
Thumbnail
AI記者的定義 AI記者是一種利用AI智慧生成技術來自動創作新聞稿的應用。它基於機器學習和自然語言處理技術,旨在模擬人類記者的寫作風格和邏輯思維,以生成高質量的新聞內容。
Thumbnail
AI幫助創作者進行內容分析,提供發布設定的最佳建議,包括標題設定、文章分類、本文摘要、瀏覽縮圖和關鍵字設定。