透過Python分析線上學習討論區文本-找出熱門文章

更新於 發佈於 閱讀時間約 2 分鐘
線上學習理想狀態?
大家好,今天要介紹的是簡單的文本分析,主要內容會包含處理html標籤、jieba斷詞、TF-IDF轉換與Logistic Regression和svm,其實最繁瑣的功夫都下在了資料的預處理上,剩下的部分都是找演算法,交給電腦放肆奔跑的過程了。
這次採用資料集是鏗鏗老師的學會學課程,抓取了2017~2021中課程各章節的討論區資料,保留了2021其中一個學期的資料做為Validation set,先給各位看一下目前的資料狀態。
蒐集2017~2021線上課程「學會學」的6444筆資料
發現message中的資料長得很醜,裡面有很多透過爬蟲取得的html標籤,待會會將文本進行處理,我們先將是否為熱門文章的標籤新增上去。
新增hit欄位,以瀏覽數大於122、留言數大於2.4為準
經過簡單計算發現瀏覽數的平均數為34,標準差44;留言數平均數則是0.4,標準差為0.99,我選擇了大於平均值兩倍標準差做為熱門文章的根據,插入[hit]欄位並根據上述方式訂下標籤內容。
處理html標籤
透過上述程式碼可以輕鬆的移除html標籤,也可在程式碼內部增加、移除或置換其他符號內容。下一步便是進行斷詞過程。
斷詞過程
上面的程式碼不只有斷詞,一開始還有進行除去停止詞的動作,可以在與專案檔案同個目錄中的資料夾新增stopWord.txt的檔案,並在檔案內用分行的方式新增停止詞如:我、妳、他、在、不、Youtube等等,在迴圈中會自動將這些字詞移除,透過上述資料處理的過程,我們得出最後的資料型態如下
斷詞、除去標籤、刪除停止詞結果
接著透過TF-IDF將文本內容轉換為字頻數值,並分別透過羅吉斯迴歸與SVM建立模型並預測測試集資料是否為熱門文章。
轉換成TF-IDF後建立模型,並印出結果
兩種演算法預測結果
結論,發現兩種演算法預測準確度都超過90%(灑花),但其實仔細查看資料會發現,絕大部的資料都是不會成為熱門文章的,即使電腦全都預測成非熱門文章,也會有(1288-97)(全部資料-熱門文章資料)/1288(全部資料)=92%的準確度,又遇到了資料不平衡的問題,而關於文本的oversampling也有許多辦法,未來文章也會提及相關作法。
喜歡這些內容麻煩幫我按讚,也可分享出去給更多人知道,學海無涯,這些只是一點點小知識,希望大家會喜歡!
avatar-img
4會員
8內容數
本專題將以Python程式語言來實作資料結構,依序從陣列(Array)、堆疊(Stack)、佇列(Queue)、樹(Tree)到圖(Graph),透過不同方式來建立資料結構,並討論部分細節如:建構難度、記憶體空間、效率等等。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
炯男孩的沙龍 的其他內容
透過機器學習與統計分析角度分析UCI機器學習資料集中的網路顧客購買意圖資料,並透過決策樹方式預測顧客是否會購買產品,提及少部分特徵選取、資料不平衡問題。
透過機器學習中的群集分析分類中華職棒打擊選手,並根據打擊能力與上壘能力給予選手不同積分,最後將積分加總,做為對戰的參考。
透過機器學習與統計分析角度分析UCI機器學習資料集中的網路顧客購買意圖資料,並透過決策樹方式預測顧客是否會購買產品,提及少部分特徵選取、資料不平衡問題。
透過機器學習中的群集分析分類中華職棒打擊選手,並根據打擊能力與上壘能力給予選手不同積分,最後將積分加總,做為對戰的參考。
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
本週的工作內容包括推廣線上課程的重新定位思考,內部行銷團隊的廣告數據分析週報、月報規劃,多種儀錶板的整合需求,以及Amazon DSP 的數據分析。
Thumbnail
這篇文章討論了現今網路資訊中使用引人注目的標題,吸引讀者的心理和方法。標題經常使用誇大的效果來吸引讀者產生好奇心,因而點閱。然而,這些標題不一定都是百分之百的真實,讀者需要保持冷靜的思緒,以避免誤導。請給小編一個喜歡,或者打賞稿費贊助,讓我們更有動力創作更多的內容。
Thumbnail
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
Thumbnail
本文主要介紹神經網路訓練辨識的過程,利用fashion_mnist及簡單的神經網路來進行分類。 使用只有兩層的神經網路來訓練辨識fashion_mnist資料。
Thumbnail
在這篇教學文章中,我們將展示如何使用 Python 和 pytrends 套件來取得 Google 趨勢(Google Trends)的熱門關鍵詞。我們會詳細說明如何安裝和設定 pytrends,並提供範例程式碼來幫助你輕鬆獲取台灣地區的熱門搜尋趨勢。
Thumbnail
STP分析—市場細分、目標市場選擇和市場定位—不僅是行銷理論的核心,同時也可以是學術寫作和發表的強大工具。特別是在機器學習這一跨學科領域,運用STP分析可以明顯提高研究的影響力和可讀性。本文分享如何運用STP分析來優化機器學習的學術研究和寫作。
Thumbnail
這本書訪談了大學學生,並且歸納出幾點建議,書中也提到不必每條條都嚴格遵守,而是選擇一組吸引你的規則,並在大學生活中履行。 我自己在看這本書的時候,結合自己的大學經歷,選取幾點我比較有感觸的部分,分為以下幾點,後面則會提到一些關於書中內容反思
最近實踐將學術閱讀流水線化,效率顯著提升。 其中已經有兩個動作實踐了50次以上,達到標準化。 動作一:將文獻內容轉為資訊塊 良品一標準 原料:閱讀材料的文本形式 成果物:資訊塊 動作二:將資訊塊匯集成話題索引筆記 (Keyword Index) 良品二 原料:帶著
Thumbnail
本文提供了博士生每週的閱讀量必須掌握到10-20篇文章的建議。除了閱讀快、整理快、產出快的重點外,還介紹了使用ChatGPT進行快速閱讀文獻的方法,並提供了具體的指令式和簡報式Prompt。這篇文章還以研究者的角度,使用特定的例子回顧了文獻的內容,並分享了關於實驗設計和步驟的內容。
Thumbnail
關於完讀率還有後台的數據等🤔 如同我留言的,我也不知道這些數據是怎麼統計出來的,我是覺得如果想要增加瀏覽率、按讚數等,就要花時間心力去經營、宣傳,增加曝光能見度,很多大明星一開始也是默默無名的小咖😅 我還是會以目前的步調,一天一篇小短文(連載)和一篇瞎聊為主囉。(基本、通常、應該、可能、
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
本週的工作內容包括推廣線上課程的重新定位思考,內部行銷團隊的廣告數據分析週報、月報規劃,多種儀錶板的整合需求,以及Amazon DSP 的數據分析。
Thumbnail
這篇文章討論了現今網路資訊中使用引人注目的標題,吸引讀者的心理和方法。標題經常使用誇大的效果來吸引讀者產生好奇心,因而點閱。然而,這些標題不一定都是百分之百的真實,讀者需要保持冷靜的思緒,以避免誤導。請給小編一個喜歡,或者打賞稿費贊助,讓我們更有動力創作更多的內容。
Thumbnail
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
Thumbnail
本文主要介紹神經網路訓練辨識的過程,利用fashion_mnist及簡單的神經網路來進行分類。 使用只有兩層的神經網路來訓練辨識fashion_mnist資料。
Thumbnail
在這篇教學文章中,我們將展示如何使用 Python 和 pytrends 套件來取得 Google 趨勢(Google Trends)的熱門關鍵詞。我們會詳細說明如何安裝和設定 pytrends,並提供範例程式碼來幫助你輕鬆獲取台灣地區的熱門搜尋趨勢。
Thumbnail
STP分析—市場細分、目標市場選擇和市場定位—不僅是行銷理論的核心,同時也可以是學術寫作和發表的強大工具。特別是在機器學習這一跨學科領域,運用STP分析可以明顯提高研究的影響力和可讀性。本文分享如何運用STP分析來優化機器學習的學術研究和寫作。
Thumbnail
這本書訪談了大學學生,並且歸納出幾點建議,書中也提到不必每條條都嚴格遵守,而是選擇一組吸引你的規則,並在大學生活中履行。 我自己在看這本書的時候,結合自己的大學經歷,選取幾點我比較有感觸的部分,分為以下幾點,後面則會提到一些關於書中內容反思
最近實踐將學術閱讀流水線化,效率顯著提升。 其中已經有兩個動作實踐了50次以上,達到標準化。 動作一:將文獻內容轉為資訊塊 良品一標準 原料:閱讀材料的文本形式 成果物:資訊塊 動作二:將資訊塊匯集成話題索引筆記 (Keyword Index) 良品二 原料:帶著
Thumbnail
本文提供了博士生每週的閱讀量必須掌握到10-20篇文章的建議。除了閱讀快、整理快、產出快的重點外,還介紹了使用ChatGPT進行快速閱讀文獻的方法,並提供了具體的指令式和簡報式Prompt。這篇文章還以研究者的角度,使用特定的例子回顧了文獻的內容,並分享了關於實驗設計和步驟的內容。
Thumbnail
關於完讀率還有後台的數據等🤔 如同我留言的,我也不知道這些數據是怎麼統計出來的,我是覺得如果想要增加瀏覽率、按讚數等,就要花時間心力去經營、宣傳,增加曝光能見度,很多大明星一開始也是默默無名的小咖😅 我還是會以目前的步調,一天一篇小短文(連載)和一篇瞎聊為主囉。(基本、通常、應該、可能、