我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語法上不可接受,則該句子被標記為 0,如果該句子語法上可以接受,則該句子被標記為 1。
今天來介紹 Stanford Sentiment TreeBank (SST-2),其為電影評論,我們將描述 SST-2(二元分類)任務這個特例,然而,資料集超出了這個範圍,可以對 0(負面)到 n(正面)範圍內的情緒進行分類。
如果想要感覺 SST-2 的能力,可以使用下列程式載入模型:
from transformers import pipeline
nlp = pipeline("sentiment-analysis", model = "distilbert-base-uncased-fine-tuned-sst-2-english")
接著使用以下資料進行測試:
print(nlp("If you sometimes like to go to the movies to have fun , Wasabi is a good place to start ."), "If you sometimes like to go to the movies to have fun , Wasabi is a good place to start .")
print(nlp("Effective but too-tepid biopic."), "Effective but too-tepid biopic.")
至於衡量的基準則選擇 Accuracy,詳見 AI說書 - 從0開始 - 82
測試結果如下: