ROUGE(Recall-Oriented Understudy for Gisting Evaluation) 是一組廣泛用於自然語言處理(NLP)中自動摘要和機器翻譯等文本生成質量評估的指標。
主要特點包括:
• 評估方式:ROUGE 通過比較機器生成的文本(候選文本)與一個或多個人工撰寫的參考文本之間的詞彙重疊程度,來衡量生成文本的質量。• 指標類型:
• ROUGE-N:基於n-gram重疊,常見有ROUGE-1(單詞重疊)和ROUGE-2(雙詞組重疊);
• ROUGE-L:基於「最長公共子序列」(Longest Common Subsequence, LCS),考慮句子結構的連續性;
• ROUGE-W:加權的LCS評分,強調連續匹配;
• ROUGE-S 和 ROUGE-SU:基於跳躍雙詞組(skip-bigram)和單詞重疊的統計。
• 計算指標:ROUGE通常計算精確率(Precision)、召回率(Recall)和F1分數,反映生成文本與參考文本在內容捕捉上的準確度和平衡性。
• 應用範圍:主要用於文本摘要、內容生成、問答系統、實體抽取和檢索增強生成等生成式AI任務。
• 分數範圍:0到1之間,分數越高表示生成文本與參考文本越相似,質量越好。
總結來說,ROUGE是目前NLP領域評估自動生成文本質量的核心指標之一,通過量化候選文本與人工參考文本的詞彙和結構重疊,幫助研究者和開發者客觀衡量模型的表現。不過,它較偏重字面匹配,對語義層面的捕捉有限,通常會與其他語義評估指標(如BERTScore)搭配使用。