今天開始啃在中文資料使用 BERT 相關的一些資料,還是要鄭重的推薦一下這篇
基本上整個走完對於 BERT 要怎麼用就會有初步的完整經驗,估計要花上三四個小時好好的了解一下這些程式碼才會夠,今天就先簡單的挑個小任務來玩:中文填字遊戲
原先在文中使用的方式比較完整的從神經網路的輸出層連接回來對應的字詞,大約需要 20 行左右的程式碼才能完成,但如果使用 transformers 的 pipeline 的話程式碼就只要三行...
原來的範例程式碼
改用 pipeline 之後
初步測試了一下要能夠處理我想弄的中藥藥方處理似乎不是一個很好的選項,對"川七七錢 枸杞2錢 三[MASK]2g"這樣的句子就得不太到東西,看起來可能需要重新思考怎麼去定義任務,單純的 tokenization 應該還是用我之前已經訓練好的 hidden markov model 來弄會比較適合。