何謂語料庫
語料庫(corpus)係指大量收集語言現象資料(語料)後所彙編而成的資料庫,語言研究者可藉由語料庫了解語言的使用情形,針對特定主題進行研究。
語料庫主要以學術研究為目的而存在,聽起來似乎不怎麼平易近人,但其實一般學習者也能從中獲益。像是如果想要知道某個名詞通常會和哪些動詞一起出現,某個形容詞通常會拿來修飾哪些名詞,或者反過來說某個名詞通常會被哪些形容詞修飾等等,撇開直接請教老師或母語人士,語料庫絕對會是學習者最好的選擇。
NINJAL-LWP for TWC
在日文的語料庫當中,築波大學開發的「築波網路語料庫(Tsukuba Web Corpus, TWC)」規模可謂數一數二,語料來源為網際網路,包含各式新聞、記事、部落格等,蒐羅的詞語數有 11 億之多,足以忠實呈現現代日文的使用現象。本文所介紹的
NINJAL-LWP for TWC 即是該語料庫的檢索系統。
進入 NINJAL-LWP for TWC 首頁後,先按右上方的「検索を開始する」,出現使用者條款,勾選「上記の利用規約に同意します」再按「同意する」,便是檢索頁面了。
在搜尋框內輸入欲查詢的詞語(動詞等有活用的詞性必須輸入辭書形),按下「絞り込み」或 Enter 鍵後即顯示搜尋結果。
「頻度」代表詞語在語料庫中出現的次數,數字越大,代表該詞語的使用頻率越高。點擊搜尋結果的話能夠詳細查看使用型態分析以及完整的句子,甚至可以連結至語料的來源網站,惟礙於使用者條款中的規範,本文不便截圖細解,敬請參考官方的
操作說明書。