真假資訊偵測器解構記

更新於 發佈於 閱讀時間約 4 分鐘
raw-image

上一回我撰寫了《真相製造》與《新媒體判讀力》的讀後感,這次想來比較有挑戰性的延續文章。如果以下的內容出現任何不足,還請多多包涵。

在近這大半年來,我都是從上一篇提及過那位學者博客那裏學習一些與機器學習(Machine Learning,下稱ML)相關的程式語言。雖然我在讀書時期都曾經學習過程式語言,而且因為領悟能力差以致讀得一塌糊塗,但接觸ML方面的程式語言(Python),卻是最近才開始。初次接觸這方面的編程,就算自己的電腦安裝了Python,因為安裝TensorFlow過程繁複,又因為毫無頭緒不知從何入手,一度打算放棄。所幸的是,這位學者介紹了一個操作簡單又可以免除安裝,並節省不少電腦記憶體的ML編程系統,我才能得以繼續接觸。這個系統,正是Google Colab。他亦曾經在其英文博客文章略為介紹過Colab的運作。

來到這裏,廢話不再多講,即管直接進入主題。我嘗試在網上搜尋有關偵測真假資訊的ML編程,但找來找去,儘管有不少教學,很多內容卻是千篇一律,又不是我想找的教學。就算找到一個以「BeautifulSoup」作主要編程,基於個人能力限制,現階段暫時未有進一步頭緒。直到找到這篇介紹的真假資訊偵測系統編程文章,再按進去裏面介紹的「The Greek Fake News Detector」了解。我嘗試從Facebook 部分網民的post找一些令我覺得可疑的關於疫苗新聞的連結進行測試,最後測試出有關連結是假資訊。另外,我又特意找信譽較高的非主流獨立網媒其中一篇新聞稿進行測試,結果發現有關新聞是真資訊。

到底這種偵測系統背後是如何運作? 我是時候根據個人有限的能力及認知,在Colab進行了以下簡單的實驗。

首先,我們安裝所需元件:

raw-image

再分別導入偵測真資訊及假資訊資料庫:

raw-image

導入資料庫後,可以分別顯示有關資訊文章標題及連結。由於篇幅設定限制,只能顯示五項。

真資訊文章標題及連結

真資訊文章標題及連結

假資訊文章標題及連結

假資訊文章標題及連結

另一種程式,就是將真/假資訊的用字數量及其所顯示的關鍵字製作成不同類別的統計。

關於真假資訊文字使用量,分別是以下程式:

真資訊文字使用量統計

真資訊文字使用量統計

假資訊文字使用量統計

假資訊文字使用量統計

由於從上述結果顯示,假資訊文字使用量遠比真資訊多,如果將前者的文字使用量多於20000的數據移除,可得出以下結果:

raw-image

如果想顯示關鍵字的使用量,則可以用wordcloud作統計。

先導入wordcloud系統程式:

raw-image

然後再分別顯示真、假資訊的關鍵字使用量結果。有關的字體愈大,顯示使用量愈多。

真資訊關鍵字使用量結果

真資訊關鍵字使用量結果

假資訊關鍵字使用量結果

假資訊關鍵字使用量結果

最後我要介紹的,是用topK作真假資訊文字使用量比較統計。

raw-image
raw-image

得出的結果如下:

raw-image

以上雖然只是實驗性質,但從上述的實驗可以反映大量假資訊充斥,這種情況在近些年來更愈來愈嚴重,絕對有必要嚴加正視及警惕。如果大家對各大資訊有任何懷疑,可以前往一些事實查證網站進行求證。「MyGoPen」、 「Cofacts」對於台灣朋友來說不算陌生。對香港的朋友來說,則通常透過「求驗傳媒」及「事實查核實驗室(Factcheck Lab)」進行查證。在今時今日資訊真偽界線愈來愈模糊下,希望大家能多善用查證系統,對每一件接收的資訊都應該抱持懷疑、辨識及思考的態度,才不致被容易誤導。


留言
avatar-img
留言分享你的想法!
avatar-img
Jessie K Invisible Soci的沙龍
6會員
16內容數
2022/01/19
在今時今日的香港,對於「何謂真正的新聞記者?」的定義已經變得愈來愈模糊不清。近日一口氣看完Netflix製作的日劇《新聞記者 The Journalist》,當中的情節更加令我對這個問題愈來愈沒有概念。
Thumbnail
2022/01/19
在今時今日的香港,對於「何謂真正的新聞記者?」的定義已經變得愈來愈模糊不清。近日一口氣看完Netflix製作的日劇《新聞記者 The Journalist》,當中的情節更加令我對這個問題愈來愈沒有概念。
Thumbnail
2022/01/02
近期,在香港的本土非主流書店愈來愈多,大家對於書店的印象,是否又是一如既往連鎖式,只有買書及打書釘? 還是除此之外還有其他可能性?
Thumbnail
2022/01/02
近期,在香港的本土非主流書店愈來愈多,大家對於書店的印象,是否又是一如既往連鎖式,只有買書及打書釘? 還是除此之外還有其他可能性?
Thumbnail
2021/10/26
在資訊泛濫,而且真確性愈來愈模糊的環境下,如何加強自己對資訊的判讀力,將會成為重要的命題……
Thumbnail
2021/10/26
在資訊泛濫,而且真確性愈來愈模糊的環境下,如何加強自己對資訊的判讀力,將會成為重要的命題……
Thumbnail
看更多
你可能也想看
Thumbnail
介紹朋友新開的蝦皮選物店『10樓2選物店』,並分享方格子與蝦皮合作的分潤計畫,註冊流程簡單,0成本、無綁約,推薦給想增加收入的讀者。
Thumbnail
介紹朋友新開的蝦皮選物店『10樓2選物店』,並分享方格子與蝦皮合作的分潤計畫,註冊流程簡單,0成本、無綁約,推薦給想增加收入的讀者。
Thumbnail
當你邊吃粽子邊看龍舟競賽直播的時候,可能會順道悼念一下2300多年前投江的屈原。但你知道端午節及其活動原先都與屈原毫無關係嗎?這是怎麼回事呢? 本文深入探討端午節設立初衷、粽子、龍舟競渡與屈原自沉四者。看完這篇文章,你就會對端午、粽子、龍舟和屈原的四角關係有新的認識喔。那就讓我們一起解開謎團吧!
Thumbnail
當你邊吃粽子邊看龍舟競賽直播的時候,可能會順道悼念一下2300多年前投江的屈原。但你知道端午節及其活動原先都與屈原毫無關係嗎?這是怎麼回事呢? 本文深入探討端午節設立初衷、粽子、龍舟競渡與屈原自沉四者。看完這篇文章,你就會對端午、粽子、龍舟和屈原的四角關係有新的認識喔。那就讓我們一起解開謎團吧!
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
streamlit與github連動程式庫,呈現即時預測手寫英文字母 整理了一下,先前學的機器學習利用Colab來訓練出能辨識手寫A~Z英文字母的模型,使用的模型是CNN(Convolutional Neural Network,CNN)模型 訓練好的模型,當然是要拿來應用,成果呈現
Thumbnail
streamlit與github連動程式庫,呈現即時預測手寫英文字母 整理了一下,先前學的機器學習利用Colab來訓練出能辨識手寫A~Z英文字母的模型,使用的模型是CNN(Convolutional Neural Network,CNN)模型 訓練好的模型,當然是要拿來應用,成果呈現
Thumbnail
隨著ChatGpt這類的AI生產工具,越來越多人運用這項工具來幫忙論文寫作,我看過的文獻就顯示,許多編輯發現,現在收到的文章,有四成到五成的比重可能是有運用過AI協作。 小平同事曾經說過:實踐是檢驗真理的不二法門,所以我又調皮了。 我把兩段文字,丟去給現在新出現的AI偵測器檢查,這一類的
Thumbnail
隨著ChatGpt這類的AI生產工具,越來越多人運用這項工具來幫忙論文寫作,我看過的文獻就顯示,許多編輯發現,現在收到的文章,有四成到五成的比重可能是有運用過AI協作。 小平同事曾經說過:實踐是檢驗真理的不二法門,所以我又調皮了。 我把兩段文字,丟去給現在新出現的AI偵測器檢查,這一類的
Thumbnail
製作一份完好的商業簡報往往需要大量的資料進行彙總,或是偶爾會有十分緊急的報告需要完成?還是說需要製作專案流程與時程表卻不知如何下手?以下會教大家實際操作技巧: 1. 資料分析與重點整理: 在專案簡報中經常要進行市場策略、競爭者資料分析,有的時候要從上百頁的資料抓出需要的重點,這裡推薦將資料給PD
Thumbnail
製作一份完好的商業簡報往往需要大量的資料進行彙總,或是偶爾會有十分緊急的報告需要完成?還是說需要製作專案流程與時程表卻不知如何下手?以下會教大家實際操作技巧: 1. 資料分析與重點整理: 在專案簡報中經常要進行市場策略、競爭者資料分析,有的時候要從上百頁的資料抓出需要的重點,這裡推薦將資料給PD
Thumbnail
不是摸魚,是因為前幾天上班超認真,處理了一堆事,今天突然就沒事了,運氣真好,希望不要被主管發現我現在沒事做在聽歌~~~ https://youtu.be/8MG--WuNW1Y?t=37
Thumbnail
不是摸魚,是因為前幾天上班超認真,處理了一堆事,今天突然就沒事了,運氣真好,希望不要被主管發現我現在沒事做在聽歌~~~ https://youtu.be/8MG--WuNW1Y?t=37
Thumbnail
OpenAI 推出 AI Text Classifier 以區分文本是AI 或是人類編寫的。但該工具限制在於主要針對英文文本,並且至少要1000字。因此,針對中文文本或是不滿1000字符,則可以考慮用ChatGPT檢測文本,本文將以中文和英文的人類和AI產生的文本進行測試,看看ChatGPT能否猜對
Thumbnail
OpenAI 推出 AI Text Classifier 以區分文本是AI 或是人類編寫的。但該工具限制在於主要針對英文文本,並且至少要1000字。因此,針對中文文本或是不滿1000字符,則可以考慮用ChatGPT檢測文本,本文將以中文和英文的人類和AI產生的文本進行測試,看看ChatGPT能否猜對
Thumbnail
OpenAI 已經意識到有關ChatGPT 的抄襲行為,因此推出 AI Text Classifier 以區分文本是AI 或是人類編寫的。本文將介紹如何使用AI Text Classifier檢測文本,並詮釋其產生的檢測結果,最後解釋該工具準確性和限制。
Thumbnail
OpenAI 已經意識到有關ChatGPT 的抄襲行為,因此推出 AI Text Classifier 以區分文本是AI 或是人類編寫的。本文將介紹如何使用AI Text Classifier檢測文本,並詮釋其產生的檢測結果,最後解釋該工具準確性和限制。
Thumbnail
到底有沒辦法透過機器學習去對資訊真偽進行辨認? 背後又是如何運作? 我在此只能以有限的認知作簡單實驗......
Thumbnail
到底有沒辦法透過機器學習去對資訊真偽進行辨認? 背後又是如何運作? 我在此只能以有限的認知作簡單實驗......
Thumbnail
這一期我一樣只挑了三個跟我們比較有切身關係,偏應用端的主題,很巧的是這三個都是在講cGAN的。人工智慧能做的事,已經越來越開始挑戰我們的想像極限,正開始有那種「只有你想不到,沒有AI做不到」的味道出來了。希望我能一直保持寫作輸出的習慣,讓對人工智慧有興趣,但英文苦手的朋友們儘量一起跟上世界趨勢。
Thumbnail
這一期我一樣只挑了三個跟我們比較有切身關係,偏應用端的主題,很巧的是這三個都是在講cGAN的。人工智慧能做的事,已經越來越開始挑戰我們的想像極限,正開始有那種「只有你想不到,沒有AI做不到」的味道出來了。希望我能一直保持寫作輸出的習慣,讓對人工智慧有興趣,但英文苦手的朋友們儘量一起跟上世界趨勢。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News