真假資訊偵測器解構記

更新於 發佈於 閱讀時間約 3 分鐘
上一回我撰寫了《真相製造》與《新媒體判讀力》的讀後感,這次想來比較有挑戰性的延續文章。如果以下的內容出現任何不足,還請多多包涵。
在近這大半年來,我都是從上一篇提及過那位學者博客那裏學習一些與機器學習(Machine Learning,下稱ML)相關的程式語言。雖然我在讀書時期都曾經學習過程式語言,而且因為領悟能力差以致讀得一塌糊塗,但接觸ML方面的程式語言(Python),卻是最近才開始。初次接觸這方面的編程,就算自己的電腦安裝了Python,因為安裝TensorFlow過程繁複,又因為毫無頭緒不知從何入手,一度打算放棄。所幸的是,這位學者介紹了一個操作簡單又可以免除安裝,並節省不少電腦記憶體的ML編程系統,我才能得以繼續接觸。這個系統,正是Google Colab。他亦曾經在其英文博客文章略為介紹過Colab的運作。
來到這裏,廢話不再多講,即管直接進入主題。我嘗試在網上搜尋有關偵測真假資訊的ML編程,但找來找去,儘管有不少教學,很多內容卻是千篇一律,又不是我想找的教學。就算找到一個以「BeautifulSoup」作主要編程,基於個人能力限制,現階段暫時未有進一步頭緒。直到找到這篇介紹的真假資訊偵測系統編程文章,再按進去裏面介紹的「The Greek Fake News Detector」了解。我嘗試從Facebook 部分網民的post找一些令我覺得可疑的關於疫苗新聞的連結進行測試,最後測試出有關連結是假資訊。另外,我又特意找信譽較高的非主流獨立網媒其中一篇新聞稿進行測試,結果發現有關新聞是真資訊。
到底這種偵測系統背後是如何運作? 我是時候根據個人有限的能力及認知,在Colab進行了以下簡單的實驗。
首先,我們安裝所需元件:
再分別導入偵測真資訊及假資訊資料庫:
導入資料庫後,可以分別顯示有關資訊文章標題及連結。由於篇幅設定限制,只能顯示五項。
真資訊文章標題及連結
假資訊文章標題及連結
另一種程式,就是將真/假資訊的用字數量及其所顯示的關鍵字製作成不同類別的統計。
關於真假資訊文字使用量,分別是以下程式:
真資訊文字使用量統計
假資訊文字使用量統計
由於從上述結果顯示,假資訊文字使用量遠比真資訊多,如果將前者的文字使用量多於20000的數據移除,可得出以下結果:
如果想顯示關鍵字的使用量,則可以用wordcloud作統計。
先導入wordcloud系統程式:
然後再分別顯示真、假資訊的關鍵字使用量結果。有關的字體愈大,顯示使用量愈多。
真資訊關鍵字使用量結果
假資訊關鍵字使用量結果
最後我要介紹的,是用topK作真假資訊文字使用量比較統計。
得出的結果如下:
以上雖然只是實驗性質,但從上述的實驗可以反映大量假資訊充斥,這種情況在近些年來更愈來愈嚴重,絕對有必要嚴加正視及警惕。如果大家對各大資訊有任何懷疑,可以前往一些事實查證網站進行求證。「MyGoPen」、 「Cofacts」對於台灣朋友來說不算陌生。對香港的朋友來說,則通常透過「求驗傳媒」及「事實查核實驗室(Factcheck Lab)」進行查證。在今時今日資訊真偽界線愈來愈模糊下,希望大家能多善用查證系統,對每一件接收的資訊都應該抱持懷疑、辨識及思考的態度,才不致被容易誤導。

留言0
查看全部
avatar-img
發表第一個留言支持創作者!
在資訊泛濫,而且真確性愈來愈模糊的環境下,如何加強自己對資訊的判讀力,將會成為重要的命題……
如果我們心累了,又找不到值得自己信任的人作傾訴對象,動物又能否成為自己最適合的聆聽者?
當大家處於人間失格的境地,又會如何自處?
面前愈來愈惡劣的環境,到底我們會像Edward般勇敢面對,還是像大庭葉藏般自暴自棄
到底誰導致濁水漂流? 真正的濁水其實是指哪一方?
《東京蒼穹下》這套電影,講述了一位積犯釋囚如何面對重投社會時的各種波折。實際上,電影所描述的,在現實中又是否如此簡單?
在資訊泛濫,而且真確性愈來愈模糊的環境下,如何加強自己對資訊的判讀力,將會成為重要的命題……
如果我們心累了,又找不到值得自己信任的人作傾訴對象,動物又能否成為自己最適合的聆聽者?
當大家處於人間失格的境地,又會如何自處?
面前愈來愈惡劣的環境,到底我們會像Edward般勇敢面對,還是像大庭葉藏般自暴自棄
到底誰導致濁水漂流? 真正的濁水其實是指哪一方?
《東京蒼穹下》這套電影,講述了一位積犯釋囚如何面對重投社會時的各種波折。實際上,電影所描述的,在現實中又是否如此簡單?
你可能也想看
Google News 追蹤
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
這篇文章討論了資訊查證與過濾情報的重要性,並分享了作者在使用 ChatGPT 和 Perplexity 查證的經驗,提供瞭如何找到可靠資訊來源的建議,並強調了對資訊可信度的敏感度。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
學習如何使用 Tensorflow.js 的 COCO-SSD 模型在網頁上進行圖片物件辨識,包括基本使用方法、進階應用及實作範例,輕鬆辨識圖片中的人數和物件。
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
Thumbnail
現今的資訊環境變得越來越複雜和雜亂,真假資訊交雜在一起。在這種情況下,要判斷消息的真實性變得更加困難。有些消息可能只是謠言或誤解,而有些則是真實的事件。因此,我們必須更加謹慎地對待每一個消息,並且更加積極地尋找證據來支持或反駁它們的真實性。 首先,我們會問自己:這件事情是與事實相反的嗎?也就是
近來AI繪圖以及如Chatgpt等可進行對話的AI進入到大眾視野,讓AI成為了熱門話題,網路媒體和論壇冒出許多相關的文章,足見AI之勢著實非同小可。
Thumbnail
AI記者的定義 AI記者是一種利用AI智慧生成技術來自動創作新聞稿的應用。它基於機器學習和自然語言處理技術,旨在模擬人類記者的寫作風格和邏輯思維,以生成高質量的新聞內容。
Thumbnail
streamlit與github連動程式庫,呈現即時預測手寫英文字母 整理了一下,先前學的機器學習利用Colab來訓練出能辨識手寫A~Z英文字母的模型,使用的模型是CNN(Convolutional Neural Network,CNN)模型 訓練好的模型,當然是要拿來應用,成果呈現
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
這篇文章討論了資訊查證與過濾情報的重要性,並分享了作者在使用 ChatGPT 和 Perplexity 查證的經驗,提供瞭如何找到可靠資訊來源的建議,並強調了對資訊可信度的敏感度。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
學習如何使用 Tensorflow.js 的 COCO-SSD 模型在網頁上進行圖片物件辨識,包括基本使用方法、進階應用及實作範例,輕鬆辨識圖片中的人數和物件。
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
Thumbnail
現今的資訊環境變得越來越複雜和雜亂,真假資訊交雜在一起。在這種情況下,要判斷消息的真實性變得更加困難。有些消息可能只是謠言或誤解,而有些則是真實的事件。因此,我們必須更加謹慎地對待每一個消息,並且更加積極地尋找證據來支持或反駁它們的真實性。 首先,我們會問自己:這件事情是與事實相反的嗎?也就是
近來AI繪圖以及如Chatgpt等可進行對話的AI進入到大眾視野,讓AI成為了熱門話題,網路媒體和論壇冒出許多相關的文章,足見AI之勢著實非同小可。
Thumbnail
AI記者的定義 AI記者是一種利用AI智慧生成技術來自動創作新聞稿的應用。它基於機器學習和自然語言處理技術,旨在模擬人類記者的寫作風格和邏輯思維,以生成高質量的新聞內容。
Thumbnail
streamlit與github連動程式庫,呈現即時預測手寫英文字母 整理了一下,先前學的機器學習利用Colab來訓練出能辨識手寫A~Z英文字母的模型,使用的模型是CNN(Convolutional Neural Network,CNN)模型 訓練好的模型,當然是要拿來應用,成果呈現