2024-07-29|閱讀時間 ‧ 約 23 分鐘

AI說書 - 從0開始 - 107 | AI怎麼處理沒看過的字

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


總結一下目前有的素材:


我們現在必須處理詞彙表外(Out-Of-Vocabulary, OOV)詞,OOV 詞可能是拼寫錯誤的詞、縮寫詞或任何不符合標準詞彙表示的詞,我們可以使用自動拼寫檢查,但這並不能解決所有問題,在這個例子中,我們將簡單地將 OOV 詞替換為 unk(未知)標記:

# Mark all OOV with 'unk' for all lines
def update_dataset(lines, vocab):
new_lines = list()
for line in lines:
new_tokens = list()
for token in line.split()
if token in vocab:
new_tokens.append(token)
else:
new_tokens.append('unk')
new_line = ' '.join(new_tokens)
new_lines.append(new_line)
return new_lines


分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.