Bilingual Evaluation Understudy (BLEU)

更新 發佈閱讀 2 分鐘

Bilingual Evaluation Understudy(BLEU) 是一種自動化的評估指標,用於衡量機器翻譯(Machine Translation)或其他生成式文本與一個或多個人工參考翻譯之間的相似度。

主要原理

  • BLEU 透過比較機器產生文本與參考翻譯中的 n-gram(連續 n 個詞)重疊率 來評分。
  • 計算不同長度的 n-gram(通常 n=1 到 4)的精確度,並結合「簡潔懲罰(brevity penalty)」以避免偏好過短的翻譯。
  • 分數介於 0 到 1 之間,數值越接近 1 表示機器翻譯與人工翻譯越相似,品質越高。

特點

  • BLEU 是首個與人類評分高度相關的自動化翻譯評估指標,廣泛用於機器翻譯、文本摘要、影像說明生成等任務。
  • 不考慮語法正確性或語意理解,只量化字詞重疊情況。
  • 評分結果通常在同一語言對、相同測試集和模型間比較才有意義2

應用範圍

  • 神經機器翻譯(NMT)系統評估
  • 統計機器翻譯(SMT)效果比較
  • 影像與影片字幕生成評估
  • 文本摘要品質評估(雖然 ROUGE 更常用於摘要)1

總結

BLEU 是一種基於 n-gram 重疊的自動化文本品質評估指標,透過與人工翻譯的比較,量化機器生成文本的準確度與相似度,是自然語言處理領域中廣泛使用的標準評估方法。

留言
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
43會員
572內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他:富邦美術館志工
2025/07/08
WaveNet 是由 DeepMind 研發的一種深度卷積神經網路架構,專門用於生成高品質的原始音訊波形,最初設計目標是用於文字轉語音(Text-to-Speech, TTS)系統,能產生非常自然且逼真的人聲。 主要特點與運作原理 自回歸生成模型(Autoregressive Model) Wa
Thumbnail
2025/07/08
WaveNet 是由 DeepMind 研發的一種深度卷積神經網路架構,專門用於生成高品質的原始音訊波形,最初設計目標是用於文字轉語音(Text-to-Speech, TTS)系統,能產生非常自然且逼真的人聲。 主要特點與運作原理 自回歸生成模型(Autoregressive Model) Wa
Thumbnail
2025/07/08
殘差神經網路(Residual Neural Network,簡稱 ResNet) 是一種深度神經網路架構,主要用於解決深層網路訓練時的「梯度消失」與「退化問題」,使得網路可以堆疊更多層數且仍能有效學習。 主要概念 殘差學習(Residual Learning) ResNet 引入了「殘差塊(R
2025/07/08
殘差神經網路(Residual Neural Network,簡稱 ResNet) 是一種深度神經網路架構,主要用於解決深層網路訓練時的「梯度消失」與「退化問題」,使得網路可以堆疊更多層數且仍能有效學習。 主要概念 殘差學習(Residual Learning) ResNet 引入了「殘差塊(R
2025/07/08
支持向量機(Support Vector Machine,簡稱 SVM) 是一種監督式機器學習演算法,主要用於分類和回歸任務。它的核心目標是找到一條(或多維空間中的一個超平面)最佳分隔線,將不同類別的資料點分開,並且最大化兩類之間的邊界(margin),以提升模型的泛化能力。 SVM 的主要特點:
Thumbnail
2025/07/08
支持向量機(Support Vector Machine,簡稱 SVM) 是一種監督式機器學習演算法,主要用於分類和回歸任務。它的核心目標是找到一條(或多維空間中的一個超平面)最佳分隔線,將不同類別的資料點分開,並且最大化兩類之間的邊界(margin),以提升模型的泛化能力。 SVM 的主要特點:
Thumbnail
看更多
你可能也想看
Thumbnail
創作不只是個人戰,在 vocus ,也可以是一場集體冒險、組隊升級。最具代表性的創作者社群「vocus 野格團」,現在有了更強大的新夥伴加入!除了大家熟悉的「官方主題沙龍」,這次我們徵召了 8 位領域各異的「個人主題專家」,將再度嘗試創作的各種可能,和格友們激發出更多未知的火花。
Thumbnail
創作不只是個人戰,在 vocus ,也可以是一場集體冒險、組隊升級。最具代表性的創作者社群「vocus 野格團」,現在有了更強大的新夥伴加入!除了大家熟悉的「官方主題沙龍」,這次我們徵召了 8 位領域各異的「個人主題專家」,將再度嘗試創作的各種可能,和格友們激發出更多未知的火花。
Thumbnail
看完上篇 4 位新成員的靈魂拷問,是不是意猶未盡?別急,野格團新血的驚喜正接著登場!今天下篇接力的另外 4 位「個人主題專家」,戰力同樣驚人──領域從旅行美食、運動、商業投資到自我成長;這些人如何維持長跑般的創作動力?在爆紅的文章背後,又藏著哪些不為人知的洞察?5 大靈魂拷問繼續出擊
Thumbnail
看完上篇 4 位新成員的靈魂拷問,是不是意猶未盡?別急,野格團新血的驚喜正接著登場!今天下篇接力的另外 4 位「個人主題專家」,戰力同樣驚人──領域從旅行美食、運動、商業投資到自我成長;這些人如何維持長跑般的創作動力?在爆紅的文章背後,又藏著哪些不為人知的洞察?5 大靈魂拷問繼續出擊
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容,我們拿 Encoder 出來看: 幾點注意如下: BERT 模型使用 M
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容,我們拿 Encoder 出來看: 幾點注意如下: BERT 模型使用 M
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 118 安裝完 googletrans,現在示範如何從英文翻譯成法文: import googletrans translator
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 118 安裝完 googletrans,現在示範如何從英文翻譯成法文: import googletrans translator
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們在 AI說書 - 從0開始 - 110 介紹了 BLEU 又在 AI說書 - 從0開始 - 111 介紹了 Smoothing 方法,現在我們來看怎麼何在一起:
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們在 AI說書 - 從0開始 - 110 介紹了 BLEU 又在 AI說書 - 從0開始 - 111 介紹了 Smoothing 方法,現在我們來看怎麼何在一起:
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下提供範例說明 BLEU 怎麼使用: #Example 1 reference = [['the', 'cat', 'likes', 'milk'], ['cat
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下提供範例說明 BLEU 怎麼使用: #Example 1 reference = [['the', 'cat', 'likes', 'milk'], ['cat
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 xxx 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式: MCC: 首先介紹 True (T) Positive (
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 xxx 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式: MCC: 首先介紹 True (T) Positive (
Thumbnail
本文介紹自我監督學習的概念和訓練方式,以BERT和GPT為例,深入探討Masking Input及Fine-Tune的實際操作和可應用性。
Thumbnail
本文介紹自我監督學習的概念和訓練方式,以BERT和GPT為例,深入探討Masking Input及Fine-Tune的實際操作和可應用性。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
本文章介紹了最近 AI 技術在翻譯領域的不同應用,包括使用 AI 生成履歷照片和文章標題建議。作者通過實際應用分享了AI技術的優點和適用性,並邀請讀者一起探討 AI 技術在不同領域中的應用。如果您對 AI 技術有興趣,歡迎追蹤本文作者的專題,並分享給你的朋友。
Thumbnail
本文章介紹了最近 AI 技術在翻譯領域的不同應用,包括使用 AI 生成履歷照片和文章標題建議。作者通過實際應用分享了AI技術的優點和適用性,並邀請讀者一起探討 AI 技術在不同領域中的應用。如果您對 AI 技術有興趣,歡迎追蹤本文作者的專題,並分享給你的朋友。
Thumbnail
ChatGPT最擅長的就是文本處理,用來翻譯字幕應該也是一片蛋糕吧!但實際操作測試,卻發現沒那麼容易,原因是影片翻譯要考量的因素太多包括: ▪️時間戳記對齊 ▪️適合閱讀且中英文對照文句長度 ▪️貼合講者原意語氣風格 ▪️專業術語與專有名詞 還有GPT一次可以處理的資訊量有限,超過
Thumbnail
ChatGPT最擅長的就是文本處理,用來翻譯字幕應該也是一片蛋糕吧!但實際操作測試,卻發現沒那麼容易,原因是影片翻譯要考量的因素太多包括: ▪️時間戳記對齊 ▪️適合閱讀且中英文對照文句長度 ▪️貼合講者原意語氣風格 ▪️專業術語與專有名詞 還有GPT一次可以處理的資訊量有限,超過
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News