用 transformers 的 pipeline 快速進行中文填字

2020/04/09閱讀時間約 1 分鐘
今天開始啃在中文資料使用 BERT 相關的一些資料,還是要鄭重的推薦一下這篇
基本上整個走完對於 BERT 要怎麼用就會有初步的完整經驗,估計要花上三四個小時好好的了解一下這些程式碼才會夠,今天就先簡單的挑個小任務來玩:中文填字遊戲
原先在文中使用的方式比較完整的從神經網路的輸出層連接回來對應的字詞,大約需要 20 行左右的程式碼才能完成,但如果使用 transformers 的 pipeline 的話程式碼就只要三行...
原來的範例程式碼
改用 pipeline 之後
初步測試了一下要能夠處理我想弄的中藥藥方處理似乎不是一個很好的選項,對"川七七錢 枸杞2錢 三[MASK]2g"這樣的句子就得不太到東西,看起來可能需要重新思考怎麼去定義任務,單純的 tokenization 應該還是用我之前已經訓練好的 hidden markov model 來弄會比較適合。
為什麼會看到廣告
Ofa Hsueh
Ofa Hsueh
我希望達達的鍵盤聲不是美麗的bug <br/> 我不是詩人,是個Programmer。
留言0
查看全部
發表第一個留言支持創作者!