Bilingual Evaluation Understudy(BLEU) 是一種自動化的評估指標,用於衡量機器翻譯(Machine Translation)或其他生成式文本與一個或多個人工參考翻譯之間的相似度。
主要原理
- BLEU 透過比較機器產生文本與參考翻譯中的 n-gram(連續 n 個詞)重疊率 來評分。
- 計算不同長度的 n-gram(通常 n=1 到 4)的精確度,並結合「簡潔懲罰(brevity penalty)」以避免偏好過短的翻譯。
- 分數介於 0 到 1 之間,數值越接近 1 表示機器翻譯與人工翻譯越相似,品質越高。
特點
- BLEU 是首個與人類評分高度相關的自動化翻譯評估指標,廣泛用於機器翻譯、文本摘要、影像說明生成等任務。
- 不考慮語法正確性或語意理解,只量化字詞重疊情況。
- 評分結果通常在同一語言對、相同測試集和模型間比較才有意義2。
應用範圍
- 神經機器翻譯(NMT)系統評估
- 統計機器翻譯(SMT)效果比較
- 影像與影片字幕生成評估
- 文本摘要品質評估(雖然 ROUGE 更常用於摘要)1
總結
BLEU 是一種基於 n-gram 重疊的自動化文本品質評估指標,透過與人工翻譯的比較,量化機器生成文本的準確度與相似度,是自然語言處理領域中廣泛使用的標準評估方法。