真假資訊偵測器解構記

更新 發佈閱讀 4 分鐘
raw-image

上一回我撰寫了《真相製造》與《新媒體判讀力》的讀後感,這次想來比較有挑戰性的延續文章。如果以下的內容出現任何不足,還請多多包涵。

在近這大半年來,我都是從上一篇提及過那位學者博客那裏學習一些與機器學習(Machine Learning,下稱ML)相關的程式語言。雖然我在讀書時期都曾經學習過程式語言,而且因為領悟能力差以致讀得一塌糊塗,但接觸ML方面的程式語言(Python),卻是最近才開始。初次接觸這方面的編程,就算自己的電腦安裝了Python,因為安裝TensorFlow過程繁複,又因為毫無頭緒不知從何入手,一度打算放棄。所幸的是,這位學者介紹了一個操作簡單又可以免除安裝,並節省不少電腦記憶體的ML編程系統,我才能得以繼續接觸。這個系統,正是Google Colab。他亦曾經在其英文博客文章略為介紹過Colab的運作。

來到這裏,廢話不再多講,即管直接進入主題。我嘗試在網上搜尋有關偵測真假資訊的ML編程,但找來找去,儘管有不少教學,很多內容卻是千篇一律,又不是我想找的教學。就算找到一個以「BeautifulSoup」作主要編程,基於個人能力限制,現階段暫時未有進一步頭緒。直到找到這篇介紹的真假資訊偵測系統編程文章,再按進去裏面介紹的「The Greek Fake News Detector」了解。我嘗試從Facebook 部分網民的post找一些令我覺得可疑的關於疫苗新聞的連結進行測試,最後測試出有關連結是假資訊。另外,我又特意找信譽較高的非主流獨立網媒其中一篇新聞稿進行測試,結果發現有關新聞是真資訊。

到底這種偵測系統背後是如何運作? 我是時候根據個人有限的能力及認知,在Colab進行了以下簡單的實驗。

首先,我們安裝所需元件:

raw-image

再分別導入偵測真資訊及假資訊資料庫:

raw-image

導入資料庫後,可以分別顯示有關資訊文章標題及連結。由於篇幅設定限制,只能顯示五項。

raw-image
raw-image

另一種程式,就是將真/假資訊的用字數量及其所顯示的關鍵字製作成不同類別的統計。

關於真假資訊文字使用量,分別是以下程式:

raw-image
raw-image

由於從上述結果顯示,假資訊文字使用量遠比真資訊多,如果將前者的文字使用量多於20000的數據移除,可得出以下結果:

raw-image

如果想顯示關鍵字的使用量,則可以用wordcloud作統計。

先導入wordcloud系統程式:

raw-image

然後再分別顯示真、假資訊的關鍵字使用量結果。有關的字體愈大,顯示使用量愈多。

raw-image
raw-image

最後我要介紹的,是用topK作真假資訊文字使用量比較統計。

raw-image
raw-image

得出的結果如下:

raw-image

以上雖然只是實驗性質,但從上述的實驗可以反映大量假資訊充斥,這種情況在近些年來更愈來愈嚴重,絕對有必要嚴加正視及警惕。如果大家對各大資訊有任何懷疑,可以前往一些事實查證網站進行求證。「MyGoPen」、 「Cofacts」對於台灣朋友來說不算陌生。對香港的朋友來說,則通常透過「求驗傳媒」及「事實查核實驗室(Factcheck Lab)」進行查證。在今時今日資訊真偽界線愈來愈模糊下,希望大家能多善用查證系統,對每一件接收的資訊都應該抱持懷疑、辨識及思考的態度,才不致被容易誤導。


留言
avatar-img
留言分享你的想法!
avatar-img
Jessie K Invisible Soci的沙龍
6會員
16內容數
2022/01/19
在今時今日的香港,對於「何謂真正的新聞記者?」的定義已經變得愈來愈模糊不清。近日一口氣看完Netflix製作的日劇《新聞記者 The Journalist》,當中的情節更加令我對這個問題愈來愈沒有概念。
Thumbnail
2022/01/19
在今時今日的香港,對於「何謂真正的新聞記者?」的定義已經變得愈來愈模糊不清。近日一口氣看完Netflix製作的日劇《新聞記者 The Journalist》,當中的情節更加令我對這個問題愈來愈沒有概念。
Thumbnail
2022/01/02
近期,在香港的本土非主流書店愈來愈多,大家對於書店的印象,是否又是一如既往連鎖式,只有買書及打書釘? 還是除此之外還有其他可能性?
Thumbnail
2022/01/02
近期,在香港的本土非主流書店愈來愈多,大家對於書店的印象,是否又是一如既往連鎖式,只有買書及打書釘? 還是除此之外還有其他可能性?
Thumbnail
2021/10/26
在資訊泛濫,而且真確性愈來愈模糊的環境下,如何加強自己對資訊的判讀力,將會成為重要的命題……
Thumbnail
2021/10/26
在資訊泛濫,而且真確性愈來愈模糊的環境下,如何加強自己對資訊的判讀力,將會成為重要的命題……
Thumbnail
看更多
你可能也想看
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
還在煩惱平凡日常該如何增添一點小驚喜嗎?全家便利商店這次聯手超萌的馬來貘,推出黑白配色的馬來貘雪糕,不僅外觀吸睛,層次豐富的雙層口味更是讓人一口接一口!本文將帶你探索馬來貘雪糕的多種創意吃法,從簡單的豆漿燕麥碗、藍莓果昔,到大人系的奇亞籽布丁下午茶,讓可愛的馬來貘陪你度過每一餐,增添生活中的小確幸!
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
streamlit與github連動程式庫,呈現即時預測手寫英文字母 整理了一下,先前學的機器學習利用Colab來訓練出能辨識手寫A~Z英文字母的模型,使用的模型是CNN(Convolutional Neural Network,CNN)模型 訓練好的模型,當然是要拿來應用,成果呈現
Thumbnail
streamlit與github連動程式庫,呈現即時預測手寫英文字母 整理了一下,先前學的機器學習利用Colab來訓練出能辨識手寫A~Z英文字母的模型,使用的模型是CNN(Convolutional Neural Network,CNN)模型 訓練好的模型,當然是要拿來應用,成果呈現
Thumbnail
隨著ChatGpt這類的AI生產工具,越來越多人運用這項工具來幫忙論文寫作,我看過的文獻就顯示,許多編輯發現,現在收到的文章,有四成到五成的比重可能是有運用過AI協作。 小平同事曾經說過:實踐是檢驗真理的不二法門,所以我又調皮了。 我把兩段文字,丟去給現在新出現的AI偵測器檢查,這一類的
Thumbnail
隨著ChatGpt這類的AI生產工具,越來越多人運用這項工具來幫忙論文寫作,我看過的文獻就顯示,許多編輯發現,現在收到的文章,有四成到五成的比重可能是有運用過AI協作。 小平同事曾經說過:實踐是檢驗真理的不二法門,所以我又調皮了。 我把兩段文字,丟去給現在新出現的AI偵測器檢查,這一類的
Thumbnail
製作一份完好的商業簡報往往需要大量的資料進行彙總,或是偶爾會有十分緊急的報告需要完成?還是說需要製作專案流程與時程表卻不知如何下手?以下會教大家實際操作技巧: 1. 資料分析與重點整理: 在專案簡報中經常要進行市場策略、競爭者資料分析,有的時候要從上百頁的資料抓出需要的重點,這裡推薦將資料給PD
Thumbnail
製作一份完好的商業簡報往往需要大量的資料進行彙總,或是偶爾會有十分緊急的報告需要完成?還是說需要製作專案流程與時程表卻不知如何下手?以下會教大家實際操作技巧: 1. 資料分析與重點整理: 在專案簡報中經常要進行市場策略、競爭者資料分析,有的時候要從上百頁的資料抓出需要的重點,這裡推薦將資料給PD
Thumbnail
不是摸魚,是因為前幾天上班超認真,處理了一堆事,今天突然就沒事了,運氣真好,希望不要被主管發現我現在沒事做在聽歌~~~ https://youtu.be/8MG--WuNW1Y?t=37
Thumbnail
不是摸魚,是因為前幾天上班超認真,處理了一堆事,今天突然就沒事了,運氣真好,希望不要被主管發現我現在沒事做在聽歌~~~ https://youtu.be/8MG--WuNW1Y?t=37
Thumbnail
OpenAI 推出 AI Text Classifier 以區分文本是AI 或是人類編寫的。但該工具限制在於主要針對英文文本,並且至少要1000字。因此,針對中文文本或是不滿1000字符,則可以考慮用ChatGPT檢測文本,本文將以中文和英文的人類和AI產生的文本進行測試,看看ChatGPT能否猜對
Thumbnail
OpenAI 推出 AI Text Classifier 以區分文本是AI 或是人類編寫的。但該工具限制在於主要針對英文文本,並且至少要1000字。因此,針對中文文本或是不滿1000字符,則可以考慮用ChatGPT檢測文本,本文將以中文和英文的人類和AI產生的文本進行測試,看看ChatGPT能否猜對
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News