[Python][自然語言]NLTK 實現電影評論情感分析

螃蟹_crab

發佈於AI深度學習筆記

更新於 2024/06/29發佈於 2024/06/29閱讀時間約 5 分鐘

情感分析是一種自然語言處理技術，用於自動識別和分析文本中的情感傾向，通常是正向、負向或中性。

我們可以使用 NLTK 來實現一個基於單純貝斯分類器的情感分析模型。

以下是一個簡單的情感分析示例：

步驟一：準備訓練和測試數據

首先，我們需要一些帶有情感標籤的文本數據集來訓練我們的分類器。

這裡我們使用 NLTK 內置的電影評論數據集 movie_reviews，它包含了正面和負面的電影評論。

import nltk
from nltk.corpus import movie_reviews

# 準備訓練資料集
documents = [(list(movie_reviews.words(fileid)), category)
             for category in movie_reviews.categories()
             for fileid in movie_reviews.fileids(category)]

# 打亂資料順序以增加模型的泛化能力
import random
random.shuffle(documents)

# 準備特徵集
all_words = nltk.FreqDist(w.lower() for w in movie_reviews.words())
word_features = list(all_words.keys())[:2000]  # 選取最常見的2000個單詞作為特徵

def document_features(document):
    document_words = set(document)
    features = {}
    for word in word_features:
        features['contains({})'.format(word)] = (word in document_words)
    return features

featuresets = [(document_features(d), c) for (d,c) in documents]
train_set, test_set = featuresets[100:], featuresets[:100]  # 分割訓練集和測試集

步驟二：訓練情感分析模型

接下來，我們使用單純貝氏分類器(Naive Bayes classifier)來訓練情感分析模型。

from nltk.classify import NaiveBayesClassifier

# 訓練分類器
classifier = NaiveBayesClassifier.train(train_set)

# 查看模型在測試集上的準確率
print('Accuracy:', nltk.classify.accuracy(classifier, test_set))

輸出

Accuracy: 0.78

步驟三：使用模型進行情感分析

最後，我們可以使用訓練好的模型來對新的文本進行情感分析。

def sentiment_analysis(text):
    tokens = nltk.word_tokenize(text)
    features = document_features(tokens)
    return classifier.classify(features)

# 測試情感分析模型
review1 = "This movie is great and fantastic!"
review2 = "I disliked this film. It was boring."

print("Review 1:", sentiment_analysis(review1))
print("Review 2:", sentiment_analysis(review2))

輸出

Review 1: neg 
Review 2: neg

儲存模型

我們將使用 NLTK 提供的 pickle 模組來匯出訓練好的分類器模型。

import pickle

# 指定要保存模型的文件名
model_file = 'sentiment_classifier.pkl'

# 匯出模型
with open(model_file, 'wb') as f:
    pickle.dump(classifier, f)

載入模型使用

import pickle

# 加載模型
with open(model_file, 'rb') as f:
    loaded_classifier = pickle.load(f)

# 使用加載的模型進行情感分析
def sentiment_analysis(text):
    tokens = nltk.word_tokenize(text)
    features = document_features(tokens)
    return loaded_classifier.classify(features)

# 測試加載的情感分析模型
review1 = "This movie is great and fantastic!"
review2 = "I disliked this film. It was boring."

print("Review 1:", sentiment_analysis(review1))
print("Review 2:", sentiment_analysis(review2))

螃蟹_crab的沙龍AI深度學習筆記自然語言

螃蟹_crab的沙龍

136會員

225內容數

本業是影像辨識軟體開發，閒暇時間進修AI相關內容，將學習到的內容寫成文章分享。

留言

留言分享你的想法！

螃蟹_crab的沙龍的其他內容

[Python][自然語言]文本處理工具nltk套件_初探索

本文介紹了流行的Python套件NLTK（Natural Language Toolkit）的主要特點、功能和在中文和英文語料上的應用。從安裝到實際應用，深入介紹了分詞、停用詞去除、詞性標註、命名實體識別等NLP任務的具體實現和步驟，幫助讀者理解和應用NLTK。

#NLTK #分詞 #停用詞去除

[Python]使用pyttsx3將文字轉語音

本文利用pyqt5，使用pyttsx3將QLineEdit(單行輸入框)的字串，轉成語音呈現出來。

#文字轉語音 #python #pyttsx3

[Python]使用SpeechRecognition進行語音辨識

本文主要使用SpeechRecognition來做一個簡單的語音辨識，使用pyqt5介面呈現。按下Start Recording，開始錄音，並顯示請開始說話。然後按鈕名改名Stop 在按下Stop Recording，稍等片刻後就會呈現出辨識結果程式範例 import sys i

#Python #語音辨識 #SpeechRecognition

[OCR][Python]tesseract 辨識模型Fine tune

微調(Fine tune)是深度學習中遷移學習的一種方法，其中預訓練模型的權重會在新數據上進行訓練。本文主要介紹如何使用新的訓練圖檔在tesseract 辨識模型進行Fine tune 有關於安裝的部分可以參考友人的其他文章 Tesseract OCR - 繁體中文【安裝篇】將所有資料

#tesseract #OCR #python

[OCR][Python]測試tesseract與easyOCR誰比較準跟快

平時都在用tesseract來辨識OCR的部分，在網路上也常常聽說easyOCR比tesseract好用，就拿之前測試的OCR素材來比較看看囉。以下輸入同樣圖片直接測試，並非絕對誰就比較準，只單純測試數字含英文的部分。圖片素材就是15碼(英文加數字)，檔名為OCR正確結果

#Python #OpenCV #tesseract

[深度學習][Python]多層感知器（MLP）模型使用不同激活函數（ReLU 和 Sigmoid）的效果

本文將展示使用不同激活函數（ReLU 和 Sigmoid）的效果。一個簡單的多層感知器（MLP）模型來對 Fashion-MNIST 資料集進行分類。函數定義 Sigmoid 函數 Sigmoid 函數將輸入壓縮到 0到 1 之間：特性：輸出範圍是 (0,1)(0, 1)(0,1

#ReLU和Sigmoid #多層感知器 #MLP

[Python][自然語言]文本處理工具nltk套件_初探索

#NLTK #分詞 #停用詞去除

[Python]使用pyttsx3將文字轉語音

本文利用pyqt5，使用pyttsx3將QLineEdit(單行輸入框)的字串，轉成語音呈現出來。

#文字轉語音 #python #pyttsx3

[Python]使用SpeechRecognition進行語音辨識

#Python #語音辨識 #SpeechRecognition

[OCR][Python]tesseract 辨識模型Fine tune

#tesseract #OCR #python

[OCR][Python]測試tesseract與easyOCR誰比較準跟快

#Python #OpenCV #tesseract

[深度學習][Python]多層感知器（MLP）模型使用不同激活函數（ReLU 和 Sigmoid）的效果

#ReLU和Sigmoid #多層感知器 #MLP

你可能也想看

Google News 追蹤

方格子 vocus 官方沙龍

2025/03/24

「方格人氣王」挑戰賽🏆！發文互動拿禮物，登上首頁曝光！

全新 vocus 挑戰活動「方格人氣王」來啦～四大挑戰任你選，留言 / 愛心 / 瀏覽數大 PK，還有新手專屬挑戰！無論你是 vocus 上活躍創作者或剛加入的新手，都有機會被更多人看見，獲得站上版位曝光＆豐富獎勵！🏆

#方格人氣王 #方格留言王 #方格愛心王

Compostela

2025/03/19

AI 筆記工具大評比：NotebookLM、OneNote、Notion AI 分析

本文探討AI筆記工具的優缺點、選擇建議及未來趨勢，比較NotebookLM、OneNote+Copilot、Notion AI、Obsidian+GPT插件和Palantir Foundry等工具，並強調安全注意事項及個人需求評估的重要性。

#Google #生成 #Note

JayRay 的沙龍

2024/08/14

【資料分析】python資料處理-特徵工程的使用時機與基礎操作語法彙整

特徵工程是機器學習中的核心技術，通過將原始數據轉換為有意義的特徵，以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程，以幫助讀者有效利用特徵工程來優化機器學習模型表現。

#數據 #模型 #異常

子非魚的沙龍

2024/07/13

閱讀｜想法轉個彎，就能掌握好心情

認知療法權威教你用書寫方式，擺脫擾亂的思緒與情緒問題

科學證據揭露喜怒哀樂如何生成

#閱讀 #情緒 #焦慮

當媽後才了解的世界

2024/06/20

透過NLP技巧轉換情緒｜負面情緒背後，竟然還有正向意圖？與情緒溫柔相處工作坊（二）

這篇文章記錄「與情緒溫柔相處工作坊」中習得的轉化情緒方法。作者分享了自己的心得，並對情緒背後的正向意圖，結合個人情感與成長啟示，提出深度思考。並紀錄如何利用 NLP 基礎技巧來調整大腦裡的素材元素，以及如何運用逐步抽離法改善對負面情緒的影響。

#上課筆記 #自我成長 #情緒

生之道 ShengZhiDao

2024/06/05

中文系也能和科技產生連接：略分享語言資訊處理的階段發展與趨勢

這篇文章討論了自然語言處理技術的發展歷程，從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足，並提出了自然語言處理領域的倫理使用和版權問題，以及對大眾的影響。最後，作者探討了個人在自然語言領域的發展可能性。

#語言 #資訊 #模型

無限可能實驗室．跟著阿馨玩人生

2024/05/29

📚情緒是被動激發？還是主動建構？📚

瞭解情緒建構的概念，轉變對情緒的感知與解讀方式，自主地思考內在感受和情緒建構，共同探索情緒培伴Playback技巧。

#跟著阿馨玩情緒 #情緒培伴Playback技巧 #情緒建構

iBonnie_愛邦尼

2024/04/17

語言模型初探

語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術，並提供了實際的應用參考點，幫助讀者深入理解自然語言處理的技術。

#模型 #語言 #輸入

技術PM路易斯的沙龍

2024/03/31

情緒勒索你的AI來得到最佳的結果

這陣子使用AI模型，還有參考國內外一些喜歡玩語言模型的同好發文，一個很有趣的結論就是，有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通，會得到比較好的結果，這的確是非常反直覺的，也就是說很多時候ChatGPT耍懶不肯工作的時候，你用加油打氣，或是情緒勒索的方法，確實是可以得到比較好的結果。

#chatgpt #LLM #AI