BLEU(Bilingual Evaluation Understudy) 是一種用於評估機器翻譯及自然語言生成模型產出的文本品質的自動化評分指標。它主要用來評估機器生成的翻譯結果與人類專家翻譯結果的相似度,以數值化方式衡量翻譯的準確度和流暢性。
BLEU 的關鍵原理與特點:
• n-gram 重疊率:BLEU 計算機器翻譯結果中 n-gram(連續詞組)與參考翻譯的重疊比例,通常會用 1-gram(單詞)、2-gram、3-gram、4-gram 等多級別結合評分。• 精確率(Precision)導向:BLEU 主要計算生成文本中各 n-gram 有多少能在參考文本中出現過,屬於精確率的衡量,並不直接計算召回率。
• 加權平均:將不同 n-gram 精確率以加權方式組合,常見是各權重相等的幾何平均。
• 短句懲罰(Brevity Penalty):為避免嚴重偏短的翻譯結果獲得高分,BLEU 引入懲罰項,促使生成句子長度接近參考句子。
BLEU 值範圍及解讀:
• BLEU 分數介於 0 到 1 之間(通常轉換為百分制 0%~100%),分數越高代表翻譯結果與參考文本的相似度越高,品質越好。
• 0.7 以上通常代表非常接近人類翻譯,但不同任務和語言的標準有差異。
優點 & 限制:
• 優點
• 速度快、可自動化評價。
• 可用於多語言和不同規模的翻譯任務。
• 客觀量化對比標準化。
• 限制
• 不考慮語義層面,重疊詞序不同但意思相近也不計分。
• 對長句及靈活表達的容忍度較低。
• 無法捕捉語法流暢性和上下文一致性。
• 依賴多個高質量參考文本較好,只有單一參考翻譯時效果有限。
總結
BLEU 是機器翻譯和自然語言生成領域常用的自動衡量指標,通過比較生成文本與專家參考翻譯之間的 n-gram 重疊度來評估模型表現,具備快速且客觀的優勢,但也存在語義理解上的限制。