透過Python分析線上學習討論區文本-找出熱門文章

2024/11/13 更新2021/11/14 發佈閱讀 3 分鐘

大家好，今天要介紹的是簡單的文本分析，主要內容會包含處理html標籤、jieba斷詞、TF-IDF轉換與Logistic Regression和svm，其實最繁瑣的功夫都下在了資料的預處理上，剩下的部分都是找演算法，交給電腦放肆奔跑的過程了。

這次採用資料集是鏗鏗老師的學會學課程，抓取了2017~2021中課程各章節的討論區資料，保留了2021其中一個學期的資料做為Validation set，先給各位看一下目前的資料狀態。

發現message中的資料長得很醜，裡面有很多透過爬蟲取得的html標籤，待會會將文本進行處理，我們先將是否為熱門文章的標籤新增上去。

經過簡單計算發現瀏覽數的平均數為34，標準差44；留言數平均數則是0.4，標準差為0.99，我選擇了大於平均值兩倍標準差做為熱門文章的根據，插入[hit]欄位並根據上述方式訂下標籤內容。

透過上述程式碼可以輕鬆的移除html標籤，也可在程式碼內部增加、移除或置換其他符號內容。下一步便是進行斷詞過程。

上面的程式碼不只有斷詞，一開始還有進行除去停止詞的動作，可以在與專案檔案同個目錄中的資料夾新增stopWord.txt的檔案，並在檔案內用分行的方式新增停止詞如：我、妳、他、在、不、Youtube等等，在迴圈中會自動將這些字詞移除，透過上述資料處理的過程，我們得出最後的資料型態如下

接著透過TF-IDF將文本內容轉換為字頻數值，並分別透過羅吉斯迴歸與SVM建立模型並預測測試集資料是否為熱門文章。

結論，發現兩種演算法預測準確度都超過90%(灑花)，但其實仔細查看資料會發現，絕大部的資料都是不會成為熱門文章的，即使電腦全都預測成非熱門文章，也會有(1288-97)(全部資料-熱門文章資料)/1288(全部資料)=92%的準確度，又遇到了資料不平衡的問題，而關於文本的oversampling也有許多辦法，未來文章也會提及相關作法。

喜歡這些內容麻煩幫我按讚，也可分享出去給更多人知道，學海無涯，這些只是一點點小知識，希望大家會喜歡！

#文本分析

#機器學習

留言

留言分享你的想法！

炯男孩的沙龍

4會員

8內容數

本專題將以Python程式語言來實作資料結構，依序從陣列(Array)、堆疊(Stack)、佇列(Queue)、樹(Tree)到圖(Graph)，透過不同方式來建立資料結構，並討論部分細節如：建構難度、記憶體空間、效率等等。

炯男孩的沙龍的其他內容

2022/08/10

從Python認識資料結構(五)．堆疊

本章介紹第二種常見的資料結構 - 堆疊(Stack)，與陣列建立方式雷同，我們常透過靜態串列與動態鏈結串列的方式來建立堆疊，本文會介紹實作過程與比較兩種方式之間的差異。

2022/08/10

從Python認識資料結構(五)．堆疊

2022/08/09

從Python認識資料結構(四)．陣列

本文為陣列實作的延伸，特別介紹鏈結串列不同的方式，以解決一些常發生在鏈結串列上的問題，並比較不同做法的優缺點。

2022/08/09

從Python認識資料結構(四)．陣列

本文為陣列實作的延伸，特別介紹鏈結串列不同的方式，以解決一些常發生在鏈結串列上的問題，並比較不同做法的優缺點。

2022/07/12

從Python認識資料結構(三)．陣列

本文會介紹靜態結構 - 串列(List)與動態結構 - 鏈結串列(Linked List)來實踐陣列的不同功能，如：刪除、計算元素個數與反轉。

2022/07/12

從Python認識資料結構(三)．陣列

本文會介紹靜態結構 - 串列(List)與動態結構 - 鏈結串列(Linked List)來實踐陣列的不同功能，如：刪除、計算元素個數與反轉。

看更多

你可能也想看

閒水鴨的日常

【開箱】瀏海人必備神器！KOIZUMI mini瀏海梳，送走惱人條碼瀏海頭！

覺得黏在額頭上的"條碼瀏海"很阿雜嗎？日本熱銷的「KOIZUMI迷你瀏海梳」，不僅小巧便攜，更能快速加熱造型，無論是齊瀏海、空氣瀏海還是韓系碎蓋髮，都能輕鬆打理！瀏海順了，一整天心情就好了！

#KOIZUMI瀏海梳#瀏海神器#KOIZUMI

2025/11/07

閒水鴨的日常

【開箱】瀏海人必備神器！KOIZUMI mini瀏海梳，送走惱人條碼瀏海頭！

#KOIZUMI瀏海梳#瀏海神器#KOIZUMI

2025/11/07

可憐的社畜的沙龍

TMB登山好幫手推薦｜我的實測好物＋雙11蝦皮購物清單

走完朝聖之路和TMB後，我發現真正能撐住長時間健行的，不只是腳力，而是那些讓生活更舒服的小物。這篇整理了我在TMB實測後覺得超好用的三樣登山神器——防水襪、肥皂袋、速乾毛巾，每一樣都讓旅程更輕鬆！

#登山裝備推薦#TMB裝備清單#健行必備小物

2025/11/07

可憐的社畜的沙龍

TMB登山好幫手推薦｜我的實測好物＋雙11蝦皮購物清單

#登山裝備推薦#TMB裝備清單#健行必備小物

2025/11/07

阿Han的沙龍

【自然語言處理 — 概念篇】探索TF-IDF, 關於詞的統計與索引隱含著什麼奧秘呢？

所謂TF-IDF是由兩個名詞所組成的, 分別是「詞頻(Term Frequency,TF)」和「逆文檔頻率(Inverse Document Frequency,IDF)。表示詞在文檔中出現的頻率, 就統計學而言, 只要這個詞在文本中出現越多次代表越值得關注, 因此它會具有一個重要的統計評估指標之

#AI#NLP

2023/06/21

阿Han的沙龍

【自然語言處理 — 概念篇】探索TF-IDF, 關於詞的統計與索引隱含著什麼奧秘呢？

#AI#NLP

2023/06/21

鄭書羽

流量TOP1、編輯嚴選、媒體轉載等成就解鎖及分析

這陣子除了偶爾的即時精選成為日常外，某些文章也成功達到流量爆發、被選入編輯嚴選、被媒體轉載等等成就，通通舉出來分析分析。流量第一名的文章是這篇：有氧運動減肥的弊端以及練腹肌的有效思路

#文章#流量#編輯

2023/03/08

鄭書羽

流量TOP1、編輯嚴選、媒體轉載等成就解鎖及分析

#文章#流量#編輯

2023/03/08

DowDow的沙龍

用Python爬取PTT熱門新聞做成文字雲

久久沒更新，把這幾天更新在wordpress的文章搬過來囉！這是篇自己練習爬蟲，並把爬下來的文字內容透過jieba套件分析後產出文字雲的小練習專案

#Python#文字雲#資料視覺化

2022/06/12

DowDow的沙龍

用Python爬取PTT熱門新聞做成文字雲

久久沒更新，把這幾天更新在wordpress的文章搬過來囉！這是篇自己練習爬蟲，並把爬下來的文字內容透過jieba套件分析後產出文字雲的小練習專案

#Python#文字雲#資料視覺化

2022/06/12

朔雪寒的沙龍

文本摘要基礎知識

本文會介紹「文本摘要」的基礎知識、基礎技術與框架。對於想理解「文本摘要」的讀者可以花時間閱讀一下。

#文本摘要

2022/04/11

朔雪寒的沙龍

文本摘要基礎知識

本文會介紹「文本摘要」的基礎知識、基礎技術與框架。對於想理解「文本摘要」的讀者可以花時間閱讀一下。

#文本摘要

2022/04/11

炯男孩的沙龍

透過Python分析線上學習討論區文本-找出熱門文章

今天要介紹的是簡單的文本分析，主要內容會包含處理html標籤、jieba斷詞、TF-IDF轉換與Logistic Regression和svm，透過文本探勘預測哪些文本會成為熱門文章。

#文本分析#機器學習

2021/11/14

炯男孩的沙龍

透過Python分析線上學習討論區文本-找出熱門文章

#文本分析#機器學習

2021/11/14

炯男孩的沙龍

透過R語言分析顧客消費情況

透過機器學習與統計分析角度分析UCI機器學習資料集中的網路顧客購買意圖資料，並透過決策樹方式預測顧客是否會購買產品，提及少部分特徵選取、資料不平衡問題。

2021/11/14

2021/11/14

從數據中發現文學作品的秘密—《文學大數據》⠀

我們都知道大數據、演算法非常厲害，懂得掌握跟運用數據的人可以說是這個時代的狠角色。數據不僅可以用來分析我們的喜好，沒想到它竟然也可以找出名作家隱藏在作品中的小習慣，以及挖掘出暢銷書的不敗公式!⠀

#文學大數據#自我學習與成長#大數據分析

2021/05/15

玩心思考 Play & Think

從數據中發現文學作品的秘密—《文學大數據》⠀

#文學大數據#自我學習與成長#大數據分析

2021/05/15

SharpWriter(周乃宏)的沙龍

Note的內容是要讓搜尋引擎看得懂，不是你

這不是「大家來找碴」遊戲。看到這種內容，我當下腦中的警報就嗡嗡作響。為了怕我的金魚腦在3分鐘後，就會把這麼重要的事情給忘掉，我只好當場就請作者來詢問幾個問題…

#redmine

2021/03/19

SharpWriter(周乃宏)的沙龍

Note的內容是要讓搜尋引擎看得懂，不是你

#redmine

2021/03/19

Jackie Chien的沙龍

國考英文學習法的突破小技巧

今天放棄英文，明天放棄人生我出版圖解國考書系迄今也快要邁入10年了，每一年都有許多新血輪的加入，但也有許多人放棄離開，沒有對錯，就是一種選擇，看過形形色色的朋友，也有許多感觸，說都說不完。考場如戰場，面對專業科目、國文、英文等考試科目，正如同遇到海軍、陸軍、空軍的攻擊一樣，要找出應對戰略以追求最

2020/11/13

Jackie Chien的沙龍

國考英文學習法的突破小技巧

2020/11/13

小賈的沙龍

三個月，如何在寫作平台累積近5000+ followers，獲得87萬的閱讀量？

資訊爆炸的時代，人們眼睛駐足的不是傳統媒體，而是一篇篇精緻、客製化的內容，自媒體拔地而起，又因競品過多走向終結。少部分靠著鮮明特色活了下來，成了我們今天看到的理科太太們。

#寫作#寫作技巧#小賈

2019/01/12

小賈的沙龍

三個月，如何在寫作平台累積近5000+ followers，獲得87萬的閱讀量？

#寫作#寫作技巧#小賈

2019/01/12

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News