我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
下游任務是一個 Fine-Tuned 的 Transformer 任務,它從預先訓練的 Transformer 模型繼承模型和參數,故,下游任務是運行微調任務的預訓練模型的視角,亦即:「A Task is Downstream if it Was Not Used to Fully Pretrain the Model」
The Corpus of Linguistic Acceptability (CoLA),是一項 GLUE 任務,詳見網址 https://gluebenchmark.com/tasks,包含數千個帶有語法可接受性註解的英語句子樣本,Alex Warstadt 等人於 2019 的目標在於評估 NLP 模型的語言能力,以判斷句子的語言可接受性,NLP 模型預計會對句子進行相應的分類,如果該句子在語法上不可接受,則該句子被標記為 0,如果該句子語法上可以接受,則該句子被標記為 1,例如:
如果想要感覺 CoLA 的能力,可以使用下列程式載入資料集:
#source of dataset : https://nyu-mll.github.io/CoLA/
df = pd.read_csv("in_domain_train.csv", delimiter = '\t', header = None, names = ['sentence_source', 'label', 'label_notes', 'sentence'])
然後使用 Hugging Face 載入 Pretrained 的 BERT (Bidirectional Encoder Representations from Transformers) 模型:
model = BertForSequenceClassification.from_pretrained("bert-base-uncased", num_labels = 2)
至於衡量的基準則選擇 MCC,詳見 AI說書 - 從0開始 - 83