透過Python分析線上學習討論區文本-找出熱門文章

更新於 2024/11/13閱讀時間約 2 分鐘
線上學習理想狀態?
大家好,今天要介紹的是簡單的文本分析,主要內容會包含處理html標籤、jieba斷詞、TF-IDF轉換與Logistic Regression和svm,其實最繁瑣的功夫都下在了資料的預處理上,剩下的部分都是找演算法,交給電腦放肆奔跑的過程了。
這次採用資料集是鏗鏗老師的學會學課程,抓取了2017~2021中課程各章節的討論區資料,保留了2021其中一個學期的資料做為Validation set,先給各位看一下目前的資料狀態。
蒐集2017~2021線上課程「學會學」的6444筆資料
發現message中的資料長得很醜,裡面有很多透過爬蟲取得的html標籤,待會會將文本進行處理,我們先將是否為熱門文章的標籤新增上去。
新增hit欄位,以瀏覽數大於122、留言數大於2.4為準
經過簡單計算發現瀏覽數的平均數為34,標準差44;留言數平均數則是0.4,標準差為0.99,我選擇了大於平均值兩倍標準差做為熱門文章的根據,插入[hit]欄位並根據上述方式訂下標籤內容。
處理html標籤
透過上述程式碼可以輕鬆的移除html標籤,也可在程式碼內部增加、移除或置換其他符號內容。下一步便是進行斷詞過程。
斷詞過程
上面的程式碼不只有斷詞,一開始還有進行除去停止詞的動作,可以在與專案檔案同個目錄中的資料夾新增stopWord.txt的檔案,並在檔案內用分行的方式新增停止詞如:我、妳、他、在、不、Youtube等等,在迴圈中會自動將這些字詞移除,透過上述資料處理的過程,我們得出最後的資料型態如下
斷詞、除去標籤、刪除停止詞結果
接著透過TF-IDF將文本內容轉換為字頻數值,並分別透過羅吉斯迴歸與SVM建立模型並預測測試集資料是否為熱門文章。
轉換成TF-IDF後建立模型,並印出結果
兩種演算法預測結果
結論,發現兩種演算法預測準確度都超過90%(灑花),但其實仔細查看資料會發現,絕大部的資料都是不會成為熱門文章的,即使電腦全都預測成非熱門文章,也會有(1288-97)(全部資料-熱門文章資料)/1288(全部資料)=92%的準確度,又遇到了資料不平衡的問題,而關於文本的oversampling也有許多辦法,未來文章也會提及相關作法。
喜歡這些內容麻煩幫我按讚,也可分享出去給更多人知道,學海無涯,這些只是一點點小知識,希望大家會喜歡!
avatar-img
4會員
8內容數
本專題將以Python程式語言來實作資料結構,依序從陣列(Array)、堆疊(Stack)、佇列(Queue)、樹(Tree)到圖(Graph),透過不同方式來建立資料結構,並討論部分細節如:建構難度、記憶體空間、效率等等。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
炯男孩的沙龍 的其他內容
透過機器學習與統計分析角度分析UCI機器學習資料集中的網路顧客購買意圖資料,並透過決策樹方式預測顧客是否會購買產品,提及少部分特徵選取、資料不平衡問題。
透過機器學習中的群集分析分類中華職棒打擊選手,並根據打擊能力與上壘能力給予選手不同積分,最後將積分加總,做為對戰的參考。
透過機器學習與統計分析角度分析UCI機器學習資料集中的網路顧客購買意圖資料,並透過決策樹方式預測顧客是否會購買產品,提及少部分特徵選取、資料不平衡問題。
透過機器學習中的群集分析分類中華職棒打擊選手,並根據打擊能力與上壘能力給予選手不同積分,最後將積分加總,做為對戰的參考。
你可能也想看
Google News 追蹤
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Edge瀏覽器下載時會出現訊息,以及安裝時會出現的訊息說明
Thumbnail
強調肌肉放鬆,避免強行調整 今天來了一對夫妻,告訴我他們曾經嘗試過很多不同的地方調理,調理後他們說:「你們這邊感覺不一樣,更注重肌肉的放鬆。」我笑著回應:「對我們來說,當肌肉非常緊繃,或是身體有不適感的時候,直接調整骨骼是不現實的,因為身體會很難放鬆。」 放鬆是關鍵,讓身體找到自然的平衡
本篇文章深入探討IKIGAI的概念,將其與2024年奧運會的實例結合,分析如何通過五根支柱以及三個步驟來探索生命的意義。文章中提到的IKIGAI不僅是日本文化中的一部分,更是一種生活態度。透過個人故事與奧運選手的經歷,讀者將理解IKIGAI在日常生活中的應用與實踐。
Thumbnail
透過閱讀對話自己,在忙碌的生活與工作中,許多人經常感受到焦慮和內耗。這篇文章探討瞭如何透過閱讀和參加讀書會來改善心情,並且鼓勵讀者挑戰自己的思維和認知。透過每日閱讀的習慣和與他人分享的讀書會,能夠有效減少內心的煩躁和焦慮,增進自我成長與社交支持。
Thumbnail
這篇文章記錄「與情緒溫柔相處工作坊」中習得的轉化情緒方法。作者分享了自己的心得,並對情緒背後的正向意圖,結合個人情感與成長啟示,提出深度思考。並紀錄如何利用 NLP 基礎技巧來調整大腦裡的素材元素,以及如何運用逐步抽離法改善對負面情緒的影響。
上一次我們談到了目標設定和人們對於執行力的選擇 今天我們則是要來聊聊,當你為自己設定了一個目標之後,可以透過什麼樣的方式去執行、面對壓力後該如何去思考學習、並且更專注於個人的目標上~     (圖片來源:https://www.dreamstime.com/freedom-word-writ
你的思想自由嗎?你的想法清晰嗎? 你的目標是什麼?你會為了達成目標做什麼樣的努力呢? 如果你是一個會為自己設定目標的人,那你是一個會努力達成自己計劃的人嗎?或是你發現自己時常會半途而廢呢? 我們的目標不應該只是一長串的待辦事項,而是讓生活上更有動力的來源。
Thumbnail
專題式學習是一種有益於幼兒成長的教學方式,通過引發問題、實際參與和統整學習內容,幫助孩子建立持久和有影響力的學習。本文探討了專題式學習的特點和如何幫助孩子進行問題驅動的學習。
Thumbnail
透過數字貨幣交易所的OPEN API文件找到自己需要的資訊
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Edge瀏覽器下載時會出現訊息,以及安裝時會出現的訊息說明
Thumbnail
強調肌肉放鬆,避免強行調整 今天來了一對夫妻,告訴我他們曾經嘗試過很多不同的地方調理,調理後他們說:「你們這邊感覺不一樣,更注重肌肉的放鬆。」我笑著回應:「對我們來說,當肌肉非常緊繃,或是身體有不適感的時候,直接調整骨骼是不現實的,因為身體會很難放鬆。」 放鬆是關鍵,讓身體找到自然的平衡
本篇文章深入探討IKIGAI的概念,將其與2024年奧運會的實例結合,分析如何通過五根支柱以及三個步驟來探索生命的意義。文章中提到的IKIGAI不僅是日本文化中的一部分,更是一種生活態度。透過個人故事與奧運選手的經歷,讀者將理解IKIGAI在日常生活中的應用與實踐。
Thumbnail
透過閱讀對話自己,在忙碌的生活與工作中,許多人經常感受到焦慮和內耗。這篇文章探討瞭如何透過閱讀和參加讀書會來改善心情,並且鼓勵讀者挑戰自己的思維和認知。透過每日閱讀的習慣和與他人分享的讀書會,能夠有效減少內心的煩躁和焦慮,增進自我成長與社交支持。
Thumbnail
這篇文章記錄「與情緒溫柔相處工作坊」中習得的轉化情緒方法。作者分享了自己的心得,並對情緒背後的正向意圖,結合個人情感與成長啟示,提出深度思考。並紀錄如何利用 NLP 基礎技巧來調整大腦裡的素材元素,以及如何運用逐步抽離法改善對負面情緒的影響。
上一次我們談到了目標設定和人們對於執行力的選擇 今天我們則是要來聊聊,當你為自己設定了一個目標之後,可以透過什麼樣的方式去執行、面對壓力後該如何去思考學習、並且更專注於個人的目標上~     (圖片來源:https://www.dreamstime.com/freedom-word-writ
你的思想自由嗎?你的想法清晰嗎? 你的目標是什麼?你會為了達成目標做什麼樣的努力呢? 如果你是一個會為自己設定目標的人,那你是一個會努力達成自己計劃的人嗎?或是你發現自己時常會半途而廢呢? 我們的目標不應該只是一長串的待辦事項,而是讓生活上更有動力的來源。
Thumbnail
專題式學習是一種有益於幼兒成長的教學方式,通過引發問題、實際參與和統整學習內容,幫助孩子建立持久和有影響力的學習。本文探討了專題式學習的特點和如何幫助孩子進行問題驅動的學習。
Thumbnail
透過數字貨幣交易所的OPEN API文件找到自己需要的資訊