透過Python分析線上學習討論區文本-找出熱門文章

更新於 2024/11/13發佈於 2021/11/14閱讀時間約 2 分鐘

線上學習理想狀態？

大家好，今天要介紹的是簡單的文本分析，主要內容會包含處理html標籤、jieba斷詞、TF-IDF轉換與Logistic Regression和svm，其實最繁瑣的功夫都下在了資料的預處理上，剩下的部分都是找演算法，交給電腦放肆奔跑的過程了。

這次採用資料集是鏗鏗老師的學會學課程，抓取了2017~2021中課程各章節的討論區資料，保留了2021其中一個學期的資料做為Validation set，先給各位看一下目前的資料狀態。

蒐集2017~2021線上課程「學會學」的6444筆資料

發現message中的資料長得很醜，裡面有很多透過爬蟲取得的html標籤，待會會將文本進行處理，我們先將是否為熱門文章的標籤新增上去。

新增hit欄位，以瀏覽數大於122、留言數大於2.4為準

經過簡單計算發現瀏覽數的平均數為34，標準差44；留言數平均數則是0.4，標準差為0.99，我選擇了大於平均值兩倍標準差做為熱門文章的根據，插入[hit]欄位並根據上述方式訂下標籤內容。

處理html標籤

透過上述程式碼可以輕鬆的移除html標籤，也可在程式碼內部增加、移除或置換其他符號內容。下一步便是進行斷詞過程。

斷詞過程

上面的程式碼不只有斷詞，一開始還有進行除去停止詞的動作，可以在與專案檔案同個目錄中的資料夾新增stopWord.txt的檔案，並在檔案內用分行的方式新增停止詞如：我、妳、他、在、不、Youtube等等，在迴圈中會自動將這些字詞移除，透過上述資料處理的過程，我們得出最後的資料型態如下

斷詞、除去標籤、刪除停止詞結果

接著透過TF-IDF將文本內容轉換為字頻數值，並分別透過羅吉斯迴歸與SVM建立模型並預測測試集資料是否為熱門文章。

轉換成TF-IDF後建立模型，並印出結果

兩種演算法預測結果

結論，發現兩種演算法預測準確度都超過90%(灑花)，但其實仔細查看資料會發現，絕大部的資料都是不會成為熱門文章的，即使電腦全都預測成非熱門文章，也會有(1288-97)(全部資料-熱門文章資料)/1288(全部資料)=92%的準確度，又遇到了資料不平衡的問題，而關於文本的oversampling也有許多辦法，未來文章也會提及相關作法。

喜歡這些內容麻煩幫我按讚，也可分享出去給更多人知道，學海無涯，這些只是一點點小知識，希望大家會喜歡！

#文本分析

#機器學習

炯男孩的沙龍

4會員

8內容數

本專題將以Python程式語言來實作資料結構，依序從陣列(Array)、堆疊(Stack)、佇列(Queue)、樹(Tree)到圖(Graph)，透過不同方式來建立資料結構，並討論部分細節如：建構難度、記憶體空間、效率等等。

留言

留言分享你的想法！

炯男孩的沙龍的其他內容

透過R語言分析顧客消費情況

透過機器學習與統計分析角度分析UCI機器學習資料集中的網路顧客購買意圖資料，並透過決策樹方式預測顧客是否會購買產品，提及少部分特徵選取、資料不平衡問題。

#R #統計分析 #機器學習

群集分析 - 中華職棒球員分類模型

透過機器學習中的群集分析分類中華職棒打擊選手，並根據打擊能力與上壘能力給予選手不同積分，最後將積分加總，做為對戰的參考。

透過機器學習中的群集分析分類中華職棒打擊選手，並根據打擊能力與上壘能力給予選手不同積分，最後將積分加總，做為對戰的參考。

你可能也想看

限時 9 折！精選投資理財沙龍推薦｜大盤動盪，知識進場

【vocus 精選投資理財/金融類沙龍，輸入 "moneyback" 年訂閱 9 折】市場動盪時，加碼永遠值得的投資標的——「自己」川普政府再度拋出關稅震撼彈，全球市場應聲重挫，從散戶到專業投資人，都急著找尋買進殺出的訊號，就是現在，輪到知識進場！把握時機讓自己升級，別放過反彈的機會！

#折扣碼 #方案 #投資

柔伊61 穿搭 . 美妝 . 分享生活

2025/04/01

提升氛圍感必不可少的單品！( mo店+ 、Bliss BKK )

就能get 同款韓系質感包👜 而且獨家下殺 299元up 讓它成為你的必備單品吧！ - momo優惠折扣碼領取超簡單❤️ 點擊右下角會員中心 - 折價券輸入 FLOWERMOMO 點擊歸戶就能領取商店優惠券啦！ - https://momo.dm/RaFNzR

#momo #穿搭 #時尚單品

姜廷蓉的沙龍

2025/04/01

mo店+ S999純銀四葉草項鍊：你的幸運守護神

momo店+ S999純銀四葉草項鍊，精緻細膩，代表愛情、希望、信念與幸運，是送給自己或別人的完美禮物。限時下殺299元起，超取免運！

#首飾 #項鍊 #穿搭

數據分析師的真實日常週報

2024/08/04

數據分析師的真實工作週報 - 線上課程推廣成效與改善、多種儀錶板的整合需求、團隊的廣告成效該看什麼指標

本週的工作內容包括推廣線上課程的重新定位思考，內部行銷團隊的廣告數據分析週報、月報規劃，多種儀錶板的整合需求，以及Amazon DSP 的數據分析。

這篇文章討論了現今網路資訊中使用引人注目的標題，吸引讀者的心理和方法。標題經常使用誇大的效果來吸引讀者產生好奇心，因而點閱。然而，這些標題不一定都是百分之百的真實，讀者需要保持冷靜的思緒，以避免誤導。請給小編一個喜歡，或者打賞稿費贊助，讓我們更有動力創作更多的內容。

#標題 #佳作 #作文

貓貓學習筆記

2024/05/27

TextToSpeech-神經網路如何理解文字

上篇我們簡單的了解了 TTS 想要達到的目標，但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚，這篇將針對訓練資料處理中的文字部分進行詳細說明，讓我們開始吧。

#AI #TextToSpeech #Pytorch

螃蟹_crab的沙龍

2024/05/25

[深度學習][Python]使用簡單的神經網路來訓練辨識fashion_mnist資料

本文主要介紹神經網路訓練辨識的過程，利用fashion_mnist及簡單的神經網路來進行分類。使用只有兩層的神經網路來訓練辨識fashion_mnist資料。

#fashion #神經網路 #深度學習

程式輕鬆玩

2024/05/22

使用 Python 取得 Google 趨勢的熱門關鍵詞

在這篇教學文章中，我們將展示如何使用 Python 和 pytrends 套件來取得 Google 趨勢（Google Trends）的熱門關鍵詞。我們會詳細說明如何安裝和設定 pytrends，並提供範例程式碼來幫助你輕鬆獲取台灣地區的熱門搜尋趨勢。

#Python #GoogleTrends #程式設計

王啟樺的沙龍

2024/05/13

【提升機器學習學術寫作，你值得注意STP分析的三個關鍵原則】

STP分析—市場細分、目標市場選擇和市場定位—不僅是行銷理論的核心，同時也可以是學術寫作和發表的強大工具。特別是在機器學習這一跨學科領域，運用STP分析可以明顯提高研究的影響力和可讀性。本文分享如何運用STP分析來優化機器學習的學術研究和寫作。

#學術 #學習 #寫作

小豆pika的園地

2024/04/18

《深度學習力》指定閱讀的閱讀建議、放棄的關鍵字是?

這本書訪談了大學學生，並且歸納出幾點建議，書中也提到不必每條條都嚴格遵守，而是選擇一組吸引你的規則，並在大學生活中履行。我自己在看這本書的時候，結合自己的大學經歷，選取幾點我比較有感觸的部分，分為以下幾點，後面則會提到一些關於書中內容反思

#學習 #閱讀 #閱讀心得

王啟樺的沙龍

2024/04/17

026｜怎樣快速從龐大的學術文獻中提取關鍵信息？

最近實踐將學術閱讀流水線化，效率顯著提升。其中已經有兩個動作實踐了50次以上，達到標準化。動作一：將文獻內容轉為資訊塊良品一標準原料：閱讀材料的文本形式成果物：資訊塊動作二：將資訊塊匯集成話題索引筆記 (Keyword Index) 良品二原料：帶著

M-Insight：AI科技創新

2024/02/24

[分享]不要只使用「摘要」，Prompt寫好，ChatGPT能協助以「簡報式」加速閱讀文獻

本文提供了博士生每週的閱讀量必須掌握到10-20篇文章的建議。除了閱讀快、整理快、產出快的重點外，還介紹了使用ChatGPT進行快速閱讀文獻的方法，並提供了具體的指令式和簡報式Prompt。這篇文章還以研究者的角度，使用特定的例子回顧了文獻的內容，並分享了關於實驗設計和步驟的內容。

關於完讀率還有後台的數據等🤔 如同我留言的，我也不知道這些數據是怎麼統計出來的，我是覺得如果想要增加瀏覽率、按讚數等，就要花時間心力去經營、宣傳，增加曝光能見度，很多大明星一開始也是默默無名的小咖😅 我還是會以目前的步調，一天一篇小短文（連載）和一篇瞎聊為主囉。（基本、通常、應該、可能、

#方格子 #流量 #瀏覽率

方格子 vocus 官方沙龍

2025/04/10

限時 9 折！精選投資理財沙龍推薦｜大盤動盪，知識進場

#折扣碼 #方案 #投資

柔伊61 穿搭 . 美妝 . 分享生活

2025/04/01

提升氛圍感必不可少的單品！( mo店+ 、Bliss BKK )

#momo #穿搭 #時尚單品

姜廷蓉的沙龍

2025/04/01

mo店+ S999純銀四葉草項鍊：你的幸運守護神

momo店+ S999純銀四葉草項鍊，精緻細膩，代表愛情、希望、信念與幸運，是送給自己或別人的完美禮物。限時下殺299元起，超取免運！

#首飾 #項鍊 #穿搭

數據分析師的真實日常週報

2024/08/04

數據分析師的真實工作週報 - 線上課程推廣成效與改善、多種儀錶板的整合需求、團隊的廣告成效該看什麼指標

#標題 #佳作 #作文

TextToSpeech-神經網路如何理解文字

#AI #TextToSpeech #Pytorch

螃蟹_crab的沙龍

2024/05/25

[深度學習][Python]使用簡單的神經網路來訓練辨識fashion_mnist資料

本文主要介紹神經網路訓練辨識的過程，利用fashion_mnist及簡單的神經網路來進行分類。使用只有兩層的神經網路來訓練辨識fashion_mnist資料。

#fashion #神經網路 #深度學習

程式輕鬆玩

2024/05/22

使用 Python 取得 Google 趨勢的熱門關鍵詞

#Python #GoogleTrends #程式設計

王啟樺的沙龍

2024/05/13

【提升機器學習學術寫作，你值得注意STP分析的三個關鍵原則】

#學術 #學習 #寫作

小豆pika的園地

2024/04/18

《深度學習力》指定閱讀的閱讀建議、放棄的關鍵字是?

#學習 #閱讀 #閱讀心得

王啟樺的沙龍

2024/04/17

026｜怎樣快速從龐大的學術文獻中提取關鍵信息？

M-Insight：AI科技創新

2024/02/24

[分享]不要只使用「摘要」，Prompt寫好，ChatGPT能協助以「簡報式」加速閱讀文獻