真假資訊偵測器解構記

2021/10/31閱讀時間約 3 分鐘
上一回我撰寫了《真相製造》與《新媒體判讀力》的讀後感,這次想來比較有挑戰性的延續文章。如果以下的內容出現任何不足,還請多多包涵。
在近這大半年來,我都是從上一篇提及過那位學者博客那裏學習一些與機器學習(Machine Learning,下稱ML)相關的程式語言。雖然我在讀書時期都曾經學習過程式語言,而且因為領悟能力差以致讀得一塌糊塗,但接觸ML方面的程式語言(Python),卻是最近才開始。初次接觸這方面的編程,就算自己的電腦安裝了Python,因為安裝TensorFlow過程繁複,又因為毫無頭緒不知從何入手,一度打算放棄。所幸的是,這位學者介紹了一個操作簡單又可以免除安裝,並節省不少電腦記憶體的ML編程系統,我才能得以繼續接觸。這個系統,正是Google Colab。他亦曾經在其英文博客文章略為介紹過Colab的運作。
來到這裏,廢話不再多講,即管直接進入主題。我嘗試在網上搜尋有關偵測真假資訊的ML編程,但找來找去,儘管有不少教學,很多內容卻是千篇一律,又不是我想找的教學。就算找到一個以「BeautifulSoup」作主要編程,基於個人能力限制,現階段暫時未有進一步頭緒。直到找到這篇介紹的真假資訊偵測系統編程文章,再按進去裏面介紹的「The Greek Fake News Detector」了解。我嘗試從Facebook 部分網民的post找一些令我覺得可疑的關於疫苗新聞的連結進行測試,最後測試出有關連結是假資訊。另外,我又特意找信譽較高的非主流獨立網媒其中一篇新聞稿進行測試,結果發現有關新聞是真資訊。
到底這種偵測系統背後是如何運作? 我是時候根據個人有限的能力及認知,在Colab進行了以下簡單的實驗。
首先,我們安裝所需元件:
再分別導入偵測真資訊及假資訊資料庫:
導入資料庫後,可以分別顯示有關資訊文章標題及連結。由於篇幅設定限制,只能顯示五項。
真資訊文章標題及連結
假資訊文章標題及連結
另一種程式,就是將真/假資訊的用字數量及其所顯示的關鍵字製作成不同類別的統計。
關於真假資訊文字使用量,分別是以下程式:
真資訊文字使用量統計
假資訊文字使用量統計
由於從上述結果顯示,假資訊文字使用量遠比真資訊多,如果將前者的文字使用量多於20000的數據移除,可得出以下結果:
如果想顯示關鍵字的使用量,則可以用wordcloud作統計。
先導入wordcloud系統程式:
然後再分別顯示真、假資訊的關鍵字使用量結果。有關的字體愈大,顯示使用量愈多。
真資訊關鍵字使用量結果
假資訊關鍵字使用量結果
最後我要介紹的,是用topK作真假資訊文字使用量比較統計。
得出的結果如下:
以上雖然只是實驗性質,但從上述的實驗可以反映大量假資訊充斥,這種情況在近些年來更愈來愈嚴重,絕對有必要嚴加正視及警惕。如果大家對各大資訊有任何懷疑,可以前往一些事實查證網站進行求證。「MyGoPen」、 「Cofacts」對於台灣朋友來說不算陌生。對香港的朋友來說,則通常透過「求驗傳媒」及「事實查核實驗室(Factcheck Lab)」進行查證。在今時今日資訊真偽界線愈來愈模糊下,希望大家能多善用查證系統,對每一件接收的資訊都應該抱持懷疑、辨識及思考的態度,才不致被容易誤導。

Jessie K Invisible Soci
Jessie K Invisible Soci
《Vestige of Reality》 現實的痕跡,孤獨的鬼牌,隱藏的對抗......
留言0
查看全部
發表第一個留言支持創作者!