我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語法上不可接受,則該句子被標記為 0,如果該句子語法上可以接受,則該句子被標記為 1。
在 AI說書 - 從0開始 - 94 介紹了 Stanford Sentiment TreeBank (SST-2),其為電影評論,可以對 0(負面)到 n(正面)範圍內的情緒進行分類。
在 AI說書 - 從0開始 - 95 介紹了 Microsoft Research Paraphrase Corpus (MRPC),從網路來源中提取句子對,根據兩個密切相關的屬性對每一對進行註釋,以指示句子是否等效。
今天來介紹 Winograd schemas,訓練集是英文的,但是,如果我們要求 Transformer 模型解決英法翻譯中的代名詞性別問題,會發生什麼事?法語具有語法性別(陰性和陽性)。
如果想要感覺 MRPC 的能力,可以使用下列程式載入模型:
from transformers import pipeline
translator = pipeline("translation_en_to_fr", model = "t5-base")
接著使用以下資料進行測試:
print(translator("The car could not go in the garage because it was too big.", max_length = 40))
測試結果如下:
Transformer 偵測到「it」指的是「car」,該詞是陰性形式,elle 在法語中的意思是“她”,這是其翻譯的陰性形式,男性形式將是 il,這意味著他,grosse 是「big」一詞翻譯的陰性形式。