真假資訊偵測器解構記

更新於 2024/10/30閱讀時間約 3 分鐘
上一回我撰寫了《真相製造》與《新媒體判讀力》的讀後感,這次想來比較有挑戰性的延續文章。如果以下的內容出現任何不足,還請多多包涵。
在近這大半年來,我都是從上一篇提及過那位學者博客那裏學習一些與機器學習(Machine Learning,下稱ML)相關的程式語言。雖然我在讀書時期都曾經學習過程式語言,而且因為領悟能力差以致讀得一塌糊塗,但接觸ML方面的程式語言(Python),卻是最近才開始。初次接觸這方面的編程,就算自己的電腦安裝了Python,因為安裝TensorFlow過程繁複,又因為毫無頭緒不知從何入手,一度打算放棄。所幸的是,這位學者介紹了一個操作簡單又可以免除安裝,並節省不少電腦記憶體的ML編程系統,我才能得以繼續接觸。這個系統,正是Google Colab。他亦曾經在其英文博客文章略為介紹過Colab的運作。
來到這裏,廢話不再多講,即管直接進入主題。我嘗試在網上搜尋有關偵測真假資訊的ML編程,但找來找去,儘管有不少教學,很多內容卻是千篇一律,又不是我想找的教學。就算找到一個以「BeautifulSoup」作主要編程,基於個人能力限制,現階段暫時未有進一步頭緒。直到找到這篇介紹的真假資訊偵測系統編程文章,再按進去裏面介紹的「The Greek Fake News Detector」了解。我嘗試從Facebook 部分網民的post找一些令我覺得可疑的關於疫苗新聞的連結進行測試,最後測試出有關連結是假資訊。另外,我又特意找信譽較高的非主流獨立網媒其中一篇新聞稿進行測試,結果發現有關新聞是真資訊。
到底這種偵測系統背後是如何運作? 我是時候根據個人有限的能力及認知,在Colab進行了以下簡單的實驗。
首先,我們安裝所需元件:
再分別導入偵測真資訊及假資訊資料庫:
導入資料庫後,可以分別顯示有關資訊文章標題及連結。由於篇幅設定限制,只能顯示五項。
真資訊文章標題及連結
假資訊文章標題及連結
另一種程式,就是將真/假資訊的用字數量及其所顯示的關鍵字製作成不同類別的統計。
關於真假資訊文字使用量,分別是以下程式:
真資訊文字使用量統計
假資訊文字使用量統計
由於從上述結果顯示,假資訊文字使用量遠比真資訊多,如果將前者的文字使用量多於20000的數據移除,可得出以下結果:
如果想顯示關鍵字的使用量,則可以用wordcloud作統計。
先導入wordcloud系統程式:
然後再分別顯示真、假資訊的關鍵字使用量結果。有關的字體愈大,顯示使用量愈多。
真資訊關鍵字使用量結果
假資訊關鍵字使用量結果
最後我要介紹的,是用topK作真假資訊文字使用量比較統計。
得出的結果如下:
以上雖然只是實驗性質,但從上述的實驗可以反映大量假資訊充斥,這種情況在近些年來更愈來愈嚴重,絕對有必要嚴加正視及警惕。如果大家對各大資訊有任何懷疑,可以前往一些事實查證網站進行求證。「MyGoPen」、 「Cofacts」對於台灣朋友來說不算陌生。對香港的朋友來說,則通常透過「求驗傳媒」及「事實查核實驗室(Factcheck Lab)」進行查證。在今時今日資訊真偽界線愈來愈模糊下,希望大家能多善用查證系統,對每一件接收的資訊都應該抱持懷疑、辨識及思考的態度,才不致被容易誤導。

留言0
查看全部
avatar-img
發表第一個留言支持創作者!
在資訊泛濫,而且真確性愈來愈模糊的環境下,如何加強自己對資訊的判讀力,將會成為重要的命題……
如果我們心累了,又找不到值得自己信任的人作傾訴對象,動物又能否成為自己最適合的聆聽者?
當大家處於人間失格的境地,又會如何自處?
面前愈來愈惡劣的環境,到底我們會像Edward般勇敢面對,還是像大庭葉藏般自暴自棄
到底誰導致濁水漂流? 真正的濁水其實是指哪一方?
《東京蒼穹下》這套電影,講述了一位積犯釋囚如何面對重投社會時的各種波折。實際上,電影所描述的,在現實中又是否如此簡單?
在資訊泛濫,而且真確性愈來愈模糊的環境下,如何加強自己對資訊的判讀力,將會成為重要的命題……
如果我們心累了,又找不到值得自己信任的人作傾訴對象,動物又能否成為自己最適合的聆聽者?
當大家處於人間失格的境地,又會如何自處?
面前愈來愈惡劣的環境,到底我們會像Edward般勇敢面對,還是像大庭葉藏般自暴自棄
到底誰導致濁水漂流? 真正的濁水其實是指哪一方?
《東京蒼穹下》這套電影,講述了一位積犯釋囚如何面對重投社會時的各種波折。實際上,電影所描述的,在現實中又是否如此簡單?
你可能也想看
Google News 追蹤
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
重組牛肉 + 注射脂肪牛肉 + 真牛肉 . 發現一件很有趣的事。 . 我看到某影片介紹, 你吃的牛肉不一定是真牛肉, 有可能分成以下三種牛肉, 一種是重組牛肉, 一種是注射脂肪的牛肉, 最後一種當然是真的牛肉, 詳細是怎麼重組和注射脂肪的, 我不清楚,就請各位自行上網查詢了。
Thumbnail
 這個社群詐騙層出不窮,我最近在FB上看到好多投資的大大,明明買了這個藍勾勾對不對,結果他的FB還被消失掉。好幾個,不是只有一個。我都在想說,這個祖克伯,Meta的老闆,詐騙那麼多也不處理一下,是不是因為他們都收詐騙公司的廣告費,所以也不想要處理。我講這樣會不會被他ban掉?我在想說,
Thumbnail
你覺得百坪豪宅一個月租金,應該多少錢才合理?一名屋主PO在租屋網站的條件,被分享到臉書社團,超低價租金和另類的租屋條件,引起網友熱烈討論。 斗大標題寫著:「三民區-頂級全新裝潢和家具上千萬國家盛晏(應為「宴」)」屋主強調租金沒有打錯,就是新台幣2千元的佛心價,要找有緣人。 根據截圖資料顯
1130116 訂了牛角聚落的海老屋,本來只有2晚。但隨著在網路上看了屋主蓮姐的故事,頗驚訝他的生活中,如對山岳的喜愛、路跑、信仰等,與G跟我如此相同,於是多訂了1晚,當再看到他的著作及聽過他的專訪後,我被他在文字間、言語裡所散發出來的真誠所感動,諸如天空下的眼睛:『父母親不識字,沒有很多大道理,
Thumbnail
我真的是現在才知道,原來我也是「圖文作家」。
Thumbnail
判斷價假訊息最重要的一點就是要保持客觀的態度去看待每件事,因為每家媒體都會有所謂的選擇性曝光,因此若看到一件事情就直接下定論,那很有可能因此被某一方洗腦。 例如:要是我每天的訊息來源都是「央視」,那我可能就會認為「小日子怎麼天天排核污水,是不是腦子裡裝答辯。」or「那些歪國勢力整天想污衊我國領導人
Thumbnail
參考前文: 農林的8月7日,然後是接下來整體盤勢&個股關鍵日的一些提醒。 8月7日 行健致遠,尤其待出手個股來到了關鍵時刻跟位階。 9月9日 以下直接進入正題: 不諱言,儘管個人這次農林進場前的事前思考,兩篇前文相關部份,已經想的這麼多也等了一段時日才出手。 但以目前暫時狀況來
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
重組牛肉 + 注射脂肪牛肉 + 真牛肉 . 發現一件很有趣的事。 . 我看到某影片介紹, 你吃的牛肉不一定是真牛肉, 有可能分成以下三種牛肉, 一種是重組牛肉, 一種是注射脂肪的牛肉, 最後一種當然是真的牛肉, 詳細是怎麼重組和注射脂肪的, 我不清楚,就請各位自行上網查詢了。
Thumbnail
 這個社群詐騙層出不窮,我最近在FB上看到好多投資的大大,明明買了這個藍勾勾對不對,結果他的FB還被消失掉。好幾個,不是只有一個。我都在想說,這個祖克伯,Meta的老闆,詐騙那麼多也不處理一下,是不是因為他們都收詐騙公司的廣告費,所以也不想要處理。我講這樣會不會被他ban掉?我在想說,
Thumbnail
你覺得百坪豪宅一個月租金,應該多少錢才合理?一名屋主PO在租屋網站的條件,被分享到臉書社團,超低價租金和另類的租屋條件,引起網友熱烈討論。 斗大標題寫著:「三民區-頂級全新裝潢和家具上千萬國家盛晏(應為「宴」)」屋主強調租金沒有打錯,就是新台幣2千元的佛心價,要找有緣人。 根據截圖資料顯
1130116 訂了牛角聚落的海老屋,本來只有2晚。但隨著在網路上看了屋主蓮姐的故事,頗驚訝他的生活中,如對山岳的喜愛、路跑、信仰等,與G跟我如此相同,於是多訂了1晚,當再看到他的著作及聽過他的專訪後,我被他在文字間、言語裡所散發出來的真誠所感動,諸如天空下的眼睛:『父母親不識字,沒有很多大道理,
Thumbnail
我真的是現在才知道,原來我也是「圖文作家」。
Thumbnail
判斷價假訊息最重要的一點就是要保持客觀的態度去看待每件事,因為每家媒體都會有所謂的選擇性曝光,因此若看到一件事情就直接下定論,那很有可能因此被某一方洗腦。 例如:要是我每天的訊息來源都是「央視」,那我可能就會認為「小日子怎麼天天排核污水,是不是腦子裡裝答辯。」or「那些歪國勢力整天想污衊我國領導人
Thumbnail
參考前文: 農林的8月7日,然後是接下來整體盤勢&個股關鍵日的一些提醒。 8月7日 行健致遠,尤其待出手個股來到了關鍵時刻跟位階。 9月9日 以下直接進入正題: 不諱言,儘管個人這次農林進場前的事前思考,兩篇前文相關部份,已經想的這麼多也等了一段時日才出手。 但以目前暫時狀況來