BERTScore 是一種先進的自然語言處理(NLP)評估指標,用於衡量兩段文本之間的語義相似度。它利用預訓練的BERT模型(及其變體如RoBERTa、XLNet)生成的上下文詞向量(contextual embeddings),通過計算候選文本與參考文本中詞彙向量的餘弦相似度,來評估文本的語義匹配度。
與傳統的BLEU、ROUGE等基於詞語或n-gram重疊的指標不同,BERTScore能捕捉語境和語義層面的細微差異,能更準確地反映人類對語義相似性的判斷。例如,對同義詞、語序變化或語義等價的句子,BERTScore能給出較高的相似度評分,而傳統指標往往無法識別這些語義層面的相似。
BERTScore會計算精確率(precision)、召回率(recall)和F1分數,通過將候選句子中每個詞與參考句子中最相似的詞匹配,並可選擇加權稀有詞來提升評估敏感度。總結來說,BERTScore是一種基於語義理解的文本評估工具,特別適用於機器翻譯、文本生成、摘要等需要捕捉語義深度的NLP任務,且在多個研究中證明其與人類評分的相關性遠高於傳統指標。