透過Python分析線上學習討論區文本-找出熱門文章

更新於 發佈於 閱讀時間約 3 分鐘
raw-image

大家好,今天要介紹的是簡單的文本分析,主要內容會包含處理html標籤、jieba斷詞、TF-IDF轉換與Logistic Regression和svm,其實最繁瑣的功夫都下在了資料的預處理上,剩下的部分都是找演算法,交給電腦放肆奔跑的過程了。

這次採用資料集是鏗鏗老師的學會學課程,抓取了2017~2021中課程各章節的討論區資料,保留了2021其中一個學期的資料做為Validation set,先給各位看一下目前的資料狀態。

raw-image

發現message中的資料長得很醜,裡面有很多透過爬蟲取得的html標籤,待會會將文本進行處理,我們先將是否為熱門文章的標籤新增上去。

raw-image

經過簡單計算發現瀏覽數的平均數為34,標準差44;留言數平均數則是0.4,標準差為0.99,我選擇了大於平均值兩倍標準差做為熱門文章的根據,插入[hit]欄位並根據上述方式訂下標籤內容。

raw-image

透過上述程式碼可以輕鬆的移除html標籤,也可在程式碼內部增加、移除或置換其他符號內容。下一步便是進行斷詞過程。

raw-image

上面的程式碼不只有斷詞,一開始還有進行除去停止詞的動作,可以在與專案檔案同個目錄中的資料夾新增stopWord.txt的檔案,並在檔案內用分行的方式新增停止詞如:我、妳、他、在、不、Youtube等等,在迴圈中會自動將這些字詞移除,透過上述資料處理的過程,我們得出最後的資料型態如下

raw-image

接著透過TF-IDF將文本內容轉換為字頻數值,並分別透過羅吉斯迴歸與SVM建立模型並預測測試集資料是否為熱門文章。

raw-image
raw-image

結論,發現兩種演算法預測準確度都超過90%(灑花),但其實仔細查看資料會發現,絕大部的資料都是不會成為熱門文章的,即使電腦全都預測成非熱門文章,也會有(1288-97)(全部資料-熱門文章資料)/1288(全部資料)=92%的準確度,又遇到了資料不平衡的問題,而關於文本的oversampling也有許多辦法,未來文章也會提及相關作法。

喜歡這些內容麻煩幫我按讚,也可分享出去給更多人知道,學海無涯,這些只是一點點小知識,希望大家會喜歡!





留言
avatar-img
留言分享你的想法!
avatar-img
炯男孩的沙龍
4會員
8內容數
本專題將以Python程式語言來實作資料結構,依序從陣列(Array)、堆疊(Stack)、佇列(Queue)、樹(Tree)到圖(Graph),透過不同方式來建立資料結構,並討論部分細節如:建構難度、記憶體空間、效率等等。
炯男孩的沙龍的其他內容
2022/08/10
本章介紹第二種常見的資料結構 - 堆疊(Stack),與陣列建立方式雷同,我們常透過靜態串列與動態鏈結串列的方式來建立堆疊,本文會介紹實作過程與比較兩種方式之間的差異。
Thumbnail
2022/08/10
本章介紹第二種常見的資料結構 - 堆疊(Stack),與陣列建立方式雷同,我們常透過靜態串列與動態鏈結串列的方式來建立堆疊,本文會介紹實作過程與比較兩種方式之間的差異。
Thumbnail
2022/08/09
本文為陣列實作的延伸,特別介紹鏈結串列不同的方式,以解決一些常發生在鏈結串列上的問題,並比較不同做法的優缺點。
Thumbnail
2022/08/09
本文為陣列實作的延伸,特別介紹鏈結串列不同的方式,以解決一些常發生在鏈結串列上的問題,並比較不同做法的優缺點。
Thumbnail
2022/07/12
本文會介紹靜態結構 - 串列(List)與動態結構 - 鏈結串列(Linked List)來實踐陣列的不同功能,如:刪除、計算元素個數與反轉。
Thumbnail
2022/07/12
本文會介紹靜態結構 - 串列(List)與動態結構 - 鏈結串列(Linked List)來實踐陣列的不同功能,如:刪除、計算元素個數與反轉。
Thumbnail
看更多
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
所謂TF-IDF是由兩個名詞所組成的, 分別是「詞頻(Term Frequency,TF)」和「逆文檔頻率(Inverse Document Frequency,IDF)。 表示詞在文檔中出現的頻率, 就統計學而言, 只要這個詞在文本中出現越多次代表越值得關注, 因此它會具有一個重要的統計評估指標之
Thumbnail
所謂TF-IDF是由兩個名詞所組成的, 分別是「詞頻(Term Frequency,TF)」和「逆文檔頻率(Inverse Document Frequency,IDF)。 表示詞在文檔中出現的頻率, 就統計學而言, 只要這個詞在文本中出現越多次代表越值得關注, 因此它會具有一個重要的統計評估指標之
Thumbnail
這陣子除了偶爾的即時精選成為日常外,某些文章也成功達到流量爆發、被選入編輯嚴選、被媒體轉載等等成就,通通舉出來分析分析。 流量第一名的文章 是這篇:有氧運動減肥的弊端以及練腹肌的有效思路
Thumbnail
這陣子除了偶爾的即時精選成為日常外,某些文章也成功達到流量爆發、被選入編輯嚴選、被媒體轉載等等成就,通通舉出來分析分析。 流量第一名的文章 是這篇:有氧運動減肥的弊端以及練腹肌的有效思路
Thumbnail
久久沒更新,把這幾天更新在wordpress的文章搬過來囉! 這是篇自己練習爬蟲,並把爬下來的文字內容透過jieba套件分析後產出文字雲的小練習專案
Thumbnail
久久沒更新,把這幾天更新在wordpress的文章搬過來囉! 這是篇自己練習爬蟲,並把爬下來的文字內容透過jieba套件分析後產出文字雲的小練習專案
Thumbnail
本文會介紹「文本摘要」的基礎知識、基礎技術與框架。對於想理解「文本摘要」的讀者可以花時間閱讀一下。
Thumbnail
本文會介紹「文本摘要」的基礎知識、基礎技術與框架。對於想理解「文本摘要」的讀者可以花時間閱讀一下。
Thumbnail
今天要介紹的是簡單的文本分析,主要內容會包含處理html標籤、jieba斷詞、TF-IDF轉換與Logistic Regression和svm,透過文本探勘預測哪些文本會成為熱門文章。
Thumbnail
今天要介紹的是簡單的文本分析,主要內容會包含處理html標籤、jieba斷詞、TF-IDF轉換與Logistic Regression和svm,透過文本探勘預測哪些文本會成為熱門文章。
Thumbnail
透過機器學習與統計分析角度分析UCI機器學習資料集中的網路顧客購買意圖資料,並透過決策樹方式預測顧客是否會購買產品,提及少部分特徵選取、資料不平衡問題。
Thumbnail
透過機器學習與統計分析角度分析UCI機器學習資料集中的網路顧客購買意圖資料,並透過決策樹方式預測顧客是否會購買產品,提及少部分特徵選取、資料不平衡問題。
Thumbnail
我們都知道大數據、演算法非常厲害,懂得掌握跟運用數據的人可以說是這個時代的狠角色。數據不僅可以用來分析我們的喜好,沒想到它竟然也可以找出名作家隱藏在作品中的小習慣,以及挖掘出暢銷書的不敗公式!⠀
Thumbnail
我們都知道大數據、演算法非常厲害,懂得掌握跟運用數據的人可以說是這個時代的狠角色。數據不僅可以用來分析我們的喜好,沒想到它竟然也可以找出名作家隱藏在作品中的小習慣,以及挖掘出暢銷書的不敗公式!⠀
Thumbnail
這不是「大家來找碴」遊戲。 看到這種內容,我當下腦中的警報就嗡嗡作響。 為了怕我的金魚腦在3分鐘後,就會把這麼重要的事情給忘掉,我只好當場就請作者來詢問幾個問題…
Thumbnail
這不是「大家來找碴」遊戲。 看到這種內容,我當下腦中的警報就嗡嗡作響。 為了怕我的金魚腦在3分鐘後,就會把這麼重要的事情給忘掉,我只好當場就請作者來詢問幾個問題…
Thumbnail
今天放棄英文,明天放棄人生 我出版圖解國考書系迄今也快要邁入10年了,每一年都有許多新血輪的加入,但也有許多人放棄離開,沒有對錯,就是一種選擇,看過形形色色的朋友,也有許多感觸,說都說不完。 考場如戰場,面對專業科目、國文、英文等考試科目,正如同遇到海軍、陸軍、空軍的攻擊一樣,要找出應對戰略以追求最
Thumbnail
今天放棄英文,明天放棄人生 我出版圖解國考書系迄今也快要邁入10年了,每一年都有許多新血輪的加入,但也有許多人放棄離開,沒有對錯,就是一種選擇,看過形形色色的朋友,也有許多感觸,說都說不完。 考場如戰場,面對專業科目、國文、英文等考試科目,正如同遇到海軍、陸軍、空軍的攻擊一樣,要找出應對戰略以追求最
Thumbnail
資訊爆炸的時代,人們眼睛駐足的不是傳統媒體,而是一篇篇精緻、客製化的內容,自媒體拔地而起,又因競品過多走向終結。少部分靠著鮮明特色活了下來,成了我們今天看到的理科太太們。
Thumbnail
資訊爆炸的時代,人們眼睛駐足的不是傳統媒體,而是一篇篇精緻、客製化的內容,自媒體拔地而起,又因競品過多走向終結。少部分靠著鮮明特色活了下來,成了我們今天看到的理科太太們。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News