BLEU(Bilingual Evaluation Understudy) 雙語替換評測

更新 發佈閱讀 3 分鐘

BLEU(Bilingual Evaluation Understudy) 是一種用於評估機器翻譯及自然語言生成模型產出的文本品質的自動化評分指標。它主要用來評估機器生成的翻譯結果與人類專家翻譯結果的相似度,以數值化方式衡量翻譯的準確度和流暢性。

BLEU 的關鍵原理與特點:

n-gram 重疊率:BLEU 計算機器翻譯結果中 n-gram(連續詞組)與參考翻譯的重疊比例,通常會用 1-gram(單詞)、2-gram、3-gram、4-gram 等多級別結合評分。

精確率(Precision)導向:BLEU 主要計算生成文本中各 n-gram 有多少能在參考文本中出現過,屬於精確率的衡量,並不直接計算召回率。

加權平均:將不同 n-gram 精確率以加權方式組合,常見是各權重相等的幾何平均。

短句懲罰(Brevity Penalty):為避免嚴重偏短的翻譯結果獲得高分,BLEU 引入懲罰項,促使生成句子長度接近參考句子。

BLEU 值範圍及解讀:

BLEU 分數介於 0 到 1 之間(通常轉換為百分制 0%~100%),分數越高代表翻譯結果與參考文本的相似度越高,品質越好。

0.7 以上通常代表非常接近人類翻譯,但不同任務和語言的標準有差異。

優點 & 限制:

優點

速度快、可自動化評價。

可用於多語言和不同規模的翻譯任務。

客觀量化對比標準化。

限制

不考慮語義層面,重疊詞序不同但意思相近也不計分。

對長句及靈活表達的容忍度較低。

無法捕捉語法流暢性和上下文一致性。

依賴多個高質量參考文本較好,只有單一參考翻譯時效果有限。

總結

BLEU 是機器翻譯和自然語言生成領域常用的自動衡量指標,通過比較生成文本與專家參考翻譯之間的 n-gram 重疊度來評估模型表現,具備快速且客觀的優勢,但也存在語義理解上的限制。

留言
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
43會員
571內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 初級+中級(數據分析) AWS Certified AI Practitioner (AIF-C01) 其他:富邦美術館志工
2025/07/29
Amazon SageMaker endpoints 是您將機器學習模型部署到可用於即時推論(real-time inference)的服務位置。透過 SageMaker endpoints,您可以將已訓練好的模型部署成一個穩定可用的 API 接口,用戶或應用程式可以透過這個接口傳送資料請求並即時獲
2025/07/29
Amazon SageMaker endpoints 是您將機器學習模型部署到可用於即時推論(real-time inference)的服務位置。透過 SageMaker endpoints,您可以將已訓練好的模型部署成一個穩定可用的 API 接口,用戶或應用程式可以透過這個接口傳送資料請求並即時獲
2025/07/29
AWS Kiro 是亞馬遜 AWS 於 2025 年推出的一款專為 AI Agent(AI代理)設計的整合開發環境(Agentic IDE)。它不僅是一個程式碼撰寫工具,更深入介入軟體開發流程,特別強調以「規格驅動開發」(spec-driven development)的方法來提升開發效率和品質。
2025/07/29
AWS Kiro 是亞馬遜 AWS 於 2025 年推出的一款專為 AI Agent(AI代理)設計的整合開發環境(Agentic IDE)。它不僅是一個程式碼撰寫工具,更深入介入軟體開發流程,特別強調以「規格驅動開發」(spec-driven development)的方法來提升開發效率和品質。
2025/07/25
Data Lineage(資料血緣) 是指追蹤和記錄資料從來源到消費的整個流轉過程,包括資料的起源(來源)、經過的轉換、傳遞路徑以及最終的用途。它讓企業或使用者能夠清楚了解資料的流向、每個環節的處理細節,以及誰訪問和修改了資料,對於資料治理、合規審計、故障排查和品質管理非常關鍵。 在 AWS 生態
2025/07/25
Data Lineage(資料血緣) 是指追蹤和記錄資料從來源到消費的整個流轉過程,包括資料的起源(來源)、經過的轉換、傳遞路徑以及最終的用途。它讓企業或使用者能夠清楚了解資料的流向、每個環節的處理細節,以及誰訪問和修改了資料,對於資料治理、合規審計、故障排查和品質管理非常關鍵。 在 AWS 生態
看更多
你可能也想看
Thumbnail
債券投資,不只是高資產族群的遊戲 在傳統的投資觀念中,海外債券(Overseas Bonds)常被貼上「高資產族群專屬」的標籤。過去動輒 1 萬甚至 10 萬美元的最低申購門檻,讓許多想尋求穩定配息的小資族望而卻步。 然而,在股市波動劇烈的環境下,尋求穩定的美元現金流與被動收入成為許多投資人
Thumbnail
債券投資,不只是高資產族群的遊戲 在傳統的投資觀念中,海外債券(Overseas Bonds)常被貼上「高資產族群專屬」的標籤。過去動輒 1 萬甚至 10 萬美元的最低申購門檻,讓許多想尋求穩定配息的小資族望而卻步。 然而,在股市波動劇烈的環境下,尋求穩定的美元現金流與被動收入成為許多投資人
Thumbnail
透過川普的近期債券交易揭露,探討債券作為資產配置中「穩定磐石」的重要性。文章分析降息對債券的潛在影響,以及股神巴菲特的操作策略。並介紹玉山證券「小額債」平臺,如何讓小資族也能低門檻參與海外債券市場,實現「低門檻、低波動、固定收益」的務實投資方式。
Thumbnail
透過川普的近期債券交易揭露,探討債券作為資產配置中「穩定磐石」的重要性。文章分析降息對債券的潛在影響,以及股神巴菲特的操作策略。並介紹玉山證券「小額債」平臺,如何讓小資族也能低門檻參與海外債券市場,實現「低門檻、低波動、固定收益」的務實投資方式。
Thumbnail
解析「債券」如何成為資產配置中的穩定錨,提供低風險高回報的投資選項。 藉由玉山證券的低門檻債券服務,投資者可輕鬆入手,平衡風險並穩定財務。
Thumbnail
解析「債券」如何成為資產配置中的穩定錨,提供低風險高回報的投資選項。 藉由玉山證券的低門檻債券服務,投資者可輕鬆入手,平衡風險並穩定財務。
Thumbnail
相較於波動較大的股票,債券能提供固定現金流,而玉山證券推出的小額債,更以1000 美元的低門檻,讓學生與新手也能參與全球優質企業債投資。玉山E-Trader平台即時報價、條件式篩選與清楚的交易流程等特色,大幅降低投資難度,對於希望分散風險、建立穩定現金流的人來說,玉山小額債是一個值得嘗試的理財起點。
Thumbnail
相較於波動較大的股票,債券能提供固定現金流,而玉山證券推出的小額債,更以1000 美元的低門檻,讓學生與新手也能參與全球優質企業債投資。玉山E-Trader平台即時報價、條件式篩選與清楚的交易流程等特色,大幅降低投資難度,對於希望分散風險、建立穩定現金流的人來說,玉山小額債是一個值得嘗試的理財起點。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容,我們拿 Encoder 出來看: 幾點注意如下: BERT 模型使用 M
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容,我們拿 Encoder 出來看: 幾點注意如下: BERT 模型使用 M
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 118 安裝完 googletrans,現在示範如何從英文翻譯成法文: import googletrans translator
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 118 安裝完 googletrans,現在示範如何從英文翻譯成法文: import googletrans translator
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們在 AI說書 - 從0開始 - 110 介紹了 BLEU 又在 AI說書 - 從0開始 - 111 介紹了 Smoothing 方法,現在我們來看怎麼何在一起:
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們在 AI說書 - 從0開始 - 110 介紹了 BLEU 又在 AI說書 - 從0開始 - 111 介紹了 Smoothing 方法,現在我們來看怎麼何在一起:
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下提供範例說明 BLEU 怎麼使用: #Example 1 reference = [['the', 'cat', 'likes', 'milk'], ['cat
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下提供範例說明 BLEU 怎麼使用: #Example 1 reference = [['the', 'cat', 'likes', 'milk'], ['cat
Thumbnail
沉浸式翻譯是一款多功能的瀏覽器插件和手機APP,專門為僅懂中文的使用者打造。它支援瀏覽器的擴充插件,也支援手機APP,並且提供多項功能,包括實時雙語字幕翻譯、PDF翻譯功能、雙語EPUB電子書,以及鼠標懸停翻譯等。欲瞭解更多請訪問官網。
Thumbnail
沉浸式翻譯是一款多功能的瀏覽器插件和手機APP,專門為僅懂中文的使用者打造。它支援瀏覽器的擴充插件,也支援手機APP,並且提供多項功能,包括實時雙語字幕翻譯、PDF翻譯功能、雙語EPUB電子書,以及鼠標懸停翻譯等。欲瞭解更多請訪問官網。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 xxx 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式: MCC: 首先介紹 True (T) Positive (
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 xxx 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式: MCC: 首先介紹 True (T) Positive (
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News