我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
- 訓練的必要模組安裝:AI說書 - 從0開始 - 135
- 載入資料集:AI說書 - 從0開始 - 136
- 資料集窺探:AI說書 - 從0開始 - 137
- 資料前處理與 Tokenization:AI說書 - 從0開始 - 138
- 資料 Padding 與訓練/驗證集切割:AI說書 - 從0開始 - 139
- Data Loader 設定:AI說書 - 從0開始 - 140
- BERT 模型窺探:AI說書 - 從0開始 - 141
- 載入 BERT 模型:AI說書 - 從0開始 - 142
- Optimizer 的 Decay Rate 群組配置:AI說書 - 從0開始 - 143
- BERT 模型的特定「層」參數窺探方法:AI說書 - 從0開始 - 144
- Optimizer 的 Decay Rate 群組窺探:AI說書 - 從0開始 - 145
- 配置 Optimizer 與訓練成效評估函數:AI說書 - 從0開始 - 146
- 訓練程式的撰寫:AI說書 - 從0開始 - 147
- 訓練結果圖示化:AI說書 - 從0開始 - 148
- 準備驗證微調效果的另一份資料前處理:AI說書 - 從0開始 - 149
- 微調模型的預測展示:AI說書 - 從0開始 - 150
- 使用 MCC 分數評估微調後的模型:AI說書 - 從0開始 - 151
- 保存微調好的模型方法:AI說書 - 從0開始 - 152 | 保存微調後的模型
一切都完整後,準備來做一個聊天介面,但是我們先準備一個函數,以方便後續使用:
from transformers import BertTokenizer, BertForSequenceClassification
import torch
model.eval()
def predict(sentence, model, tokenizer):
sentence = "[CLS] " + sentence + " [SEP]"
tokenized_text = tokenizer.tokenize(sentence)
indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text)
segments_ids = [0] * len(tokenized_text) # 0 for Seq 1, and 1 for seq 2
tokens_tensor = torch.tensor([indexed_tokens])
segments_tensors = torch.tensor([segments_ids])
with torch.no_grad():
outputs = model(tokens_tensor, token_type_ids = segments_tensors)
logits = outputs.logits
predicted_label = torch.argmax(logits, dim = 1).item()
return predicted_label