真假資訊偵測器解構記

2024/10/30 更新2021/10/31 發佈閱讀 4 分鐘

上一回我撰寫了《真相製造》與《新媒體判讀力》的讀後感，這次想來比較有挑戰性的延續文章。如果以下的內容出現任何不足，還請多多包涵。

在近這大半年來，我都是從上一篇提及過那位學者博客那裏學習一些與機器學習(Machine Learning，下稱ML)相關的程式語言。雖然我在讀書時期都曾經學習過程式語言，而且因為領悟能力差以致讀得一塌糊塗，但接觸ML方面的程式語言(Python)，卻是最近才開始。初次接觸這方面的編程，就算自己的電腦安裝了Python，因為安裝TensorFlow過程繁複，又因為毫無頭緒不知從何入手，一度打算放棄。所幸的是，這位學者介紹了一個操作簡單又可以免除安裝，並節省不少電腦記憶體的ML編程系統，我才能得以繼續接觸。這個系統，正是Google Colab。他亦曾經在其英文博客文章略為介紹過Colab的運作。

來到這裏，廢話不再多講，即管直接進入主題。我嘗試在網上搜尋有關偵測真假資訊的ML編程，但找來找去，儘管有不少教學，很多內容卻是千篇一律，又不是我想找的教學。就算找到一個以「BeautifulSoup」作主要編程，基於個人能力限制，現階段暫時未有進一步頭緒。直到找到這篇介紹的真假資訊偵測系統編程文章，再按進去裏面介紹的「The Greek Fake News Detector」了解。我嘗試從Facebook 部分網民的post找一些令我覺得可疑的關於疫苗新聞的連結進行測試，最後測試出有關連結是假資訊。另外，我又特意找信譽較高的非主流獨立網媒其中一篇新聞稿進行測試，結果發現有關新聞是真資訊。

到底這種偵測系統背後是如何運作? 我是時候根據個人有限的能力及認知，在Colab進行了以下簡單的實驗。

首先，我們安裝所需元件：

再分別導入偵測真資訊及假資訊資料庫：

導入資料庫後，可以分別顯示有關資訊文章標題及連結。由於篇幅設定限制，只能顯示五項。

另一種程式，就是將真/假資訊的用字數量及其所顯示的關鍵字製作成不同類別的統計。

關於真假資訊文字使用量，分別是以下程式：

由於從上述結果顯示，假資訊文字使用量遠比真資訊多，如果將前者的文字使用量多於20000的數據移除，可得出以下結果：

如果想顯示關鍵字的使用量，則可以用wordcloud作統計。

先導入wordcloud系統程式：

然後再分別顯示真、假資訊的關鍵字使用量結果。有關的字體愈大，顯示使用量愈多。

最後我要介紹的，是用topK作真假資訊文字使用量比較統計。

得出的結果如下：

以上雖然只是實驗性質，但從上述的實驗可以反映大量假資訊充斥，這種情況在近些年來更愈來愈嚴重，絕對有必要嚴加正視及警惕。如果大家對各大資訊有任何懷疑，可以前往一些事實查證網站進行求證。「MyGoPen」、「Cofacts」對於台灣朋友來說不算陌生。對香港的朋友來說，則通常透過「求驗傳媒」及「事實查核實驗室(Factcheck Lab)」進行查證。在今時今日資訊真偽界線愈來愈模糊下，希望大家能多善用查證系統，對每一件接收的資訊都應該抱持懷疑、辨識及思考的態度，才不致被容易誤導。

留言

留言分享你的想法！

Jessie K Invisible Soci的沙龍

6會員

16內容數

Jessie K Invisible Soci的沙龍的其他內容

2022/01/19

何謂真正的新聞記者?

在今時今日的香港，對於「何謂真正的新聞記者?」的定義已經變得愈來愈模糊不清。近日一口氣看完Netflix製作的日劇《新聞記者 The Journalist》，當中的情節更加令我對這個問題愈來愈沒有概念。

2022/01/19

何謂真正的新聞記者?

2022/01/02

不一樣的書店遊蹤

近期，在香港的本土非主流書店愈來愈多，大家對於書店的印象，是否又是一如既往連鎖式，只有買書及打書釘? 還是除此之外還有其他可能性?

2022/01/02

不一樣的書店遊蹤

近期，在香港的本土非主流書店愈來愈多，大家對於書店的印象，是否又是一如既往連鎖式，只有買書及打書釘? 還是除此之外還有其他可能性?

2021/10/26

如何在真相被製造的環境下提高判讀力?

在資訊泛濫，而且真確性愈來愈模糊的環境下，如何加強自己對資訊的判讀力，將會成為重要的命題……

2021/10/26

如何在真相被製造的環境下提高判讀力?

在資訊泛濫，而且真確性愈來愈模糊的環境下，如何加強自己對資訊的判讀力，將會成為重要的命題……

看更多

你可能也想看

普普文創

【文創漫談】數據分析與解讀 | 如何利用AI | 增強能力

數據分析與解讀隨著數據的爆炸式增長，能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術，如統計學、數據挖掘、機器學習等。然而，僅靠短時間的數據分析並不足以提供深入見解。要熟悉數據分析工具和技術，如統計學、數據挖掘和機器學習，可以從以下幾個方面入手：基礎知識的學習

#文創漫談#數據分析與解讀#如何利用AI增強能力

2024/07/28

普普文創

【文創漫談】數據分析與解讀 | 如何利用AI | 增強能力

#文創漫談#數據分析與解讀#如何利用AI增強能力

2024/07/28

默默超的人機協作城

AI助手數據收集和訓練過程簡介

本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據，數據的清洗和結構化處理，知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議，歡迎隨時告訴我們，讓我們共同探索，攜手進步。

2024/07/11

2024/07/11

[機器學習]CNN學習MNIST 手寫英文字母資料，用網頁展現成果_模型訓練篇

streamlit與github連動程式庫，呈現即時預測手寫英文字母整理了一下，先前學的機器學習利用Colab來訓練出能辨識手寫A~Z英文字母的模型，使用的模型是CNN(Convolutional Neural Network，CNN）模型訓練好的模型，當然是要拿來應用，成果呈現

#機器學習#CNN模型#手寫辨識

2024/01/06

螃蟹_crab的沙龍

[機器學習]CNN學習MNIST 手寫英文字母資料，用網頁展現成果_模型訓練篇

#機器學習#CNN模型#手寫辨識

2024/01/06

巷子外的的沙龍

當你文章寫太好時

隨著ChatGpt這類的AI生產工具，越來越多人運用這項工具來幫忙論文寫作，我看過的文獻就顯示，許多編輯發現，現在收到的文章，有四成到五成的比重可能是有運用過AI協作。小平同事曾經說過：實踐是檢驗真理的不二法門，所以我又調皮了。我把兩段文字，丟去給現在新出現的AI偵測器檢查，這一類的

2023/12/18

巷子外的的沙龍

當你文章寫太好時

2023/12/18

捷可印的沙龍

緊急報告救星！學會《AI工具- Gamma》，輕鬆製作商業簡報！

製作一份完好的商業簡報往往需要大量的資料進行彙總，或是偶爾會有十分緊急的報告需要完成？還是說需要製作專案流程與時程表卻不知如何下手？以下會教大家實際操作技巧： 1. 資料分析與重點整理：在專案簡報中經常要進行市場策略、競爭者資料分析，有的時候要從上百頁的資料抓出需要的重點，這裡推薦將資料給PD

#簡報#文章#商業

2023/08/22

捷可印的沙龍

緊急報告救星！學會《AI工具- Gamma》，輕鬆製作商業簡報！

#簡報#文章#商業

2023/08/22

JN的沙龍

今天上班完全沒做正事

不是摸魚，是因為前幾天上班超認真，處理了一堆事，今天突然就沒事了，運氣真好，希望不要被主管發現我現在沒事做在聽歌~~~ https://youtu.be/8MG--WuNW1Y?t=37

2023/08/01

2023/08/01

原來自己才是最大的敵人?ChatGPT能否檢查出AI產生的文本?

OpenAI 推出 AI Text Classifier 以區分文本是AI 或是人類編寫的。但該工具限制在於主要針對英文文本，並且至少要1000字。因此，針對中文文本或是不滿1000字符，則可以考慮用ChatGPT檢測文本，本文將以中文和英文的人類和AI產生的文本進行測試，看看ChatGPT能否猜對

#ChatGPT#OpenAI#文章

2023/02/04

教育心理博士的筆記本

原來自己才是最大的敵人?ChatGPT能否檢查出AI產生的文本?

#ChatGPT#OpenAI#文章

2023/02/04