AI說書 - 從0開始 - 109 | BLEU 評分機制前言

2024/07/31閱讀時間約 2 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

總結一下目前有的素材：

AI說書 - 從0開始 - 103：資料集載入
AI說書 - 從0開始 - 104：定義資料清洗的函數
AI說書 - 從0開始 - 105：資料集的資料進行資料清洗
AI說書 - 從0開始 - 106：定義空白表單、詞彙計數器的函數 (排除頻率低的詞彙)
AI說書 - 從0開始 - 107：定義將沒看過的詞彙轉為 'unk' 的函數
AI說書 - 從0開始 - 108：匯集所有函數並製造出可以直接拿來訓練的資料集

法語數據集的每一行都是需要翻譯的句子，英語數據集的每一行都是機器翻譯模型的參考翻譯，機器翻譯模型必須生成一個英語候選翻譯，以匹配這個參考翻譯，BLEU 提供了一種方法來評估機器翻譯模型生成的候選翻譯。

Papineni 等人於 2002 年設計了一種有效的方法來評估人工翻譯，人工基準很難定義，然而，他們意識到，如果我們將人工翻譯與機器翻譯逐字比較，可以獲得有效的結果，Papineni 稱其方法為：Bilingual Evaluation Understudy Score (BLEU)，我們想用 Natural Language Toolkit (NLTK) 來實作 BLEU，詳見：

http://www.nltk.org/api/nltk.translate.html#nltk.translate.bleu_score.sentence_bleu

BLEU 方法將部分候選句子與一個或多個參考句子進行比較，以下先載入必要的依賴庫：

from nltk.translate.bleu_score import sentence_bleu
from nltk.translate.bleu_score import SmoothingFunction

Learn AI 不 BI三分鐘學AIAI從0開始-第四章

Learn AI 不 BI

158會員

394內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

留言0

查看全部

發表第一個留言支持創作者！

Learn AI 不 BI 的其他內容

AI說書 - Prompt Engineering - 64 | 引導式對話

我們人類和ChatGPT的對話技巧也是需要學習的，有鑑於此，我想要一天分享一點「和ChatGPT對話的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續 AI說書 - Prompt Engineering - 63 | 引導式對話，以下繼續 Promp

AI說書 - 從0開始 - 109 | BLEU 評分機制前言

AI說書 - Prompt Engineering - 64 | 引導式對話

AI說書 - 從0開始 - 108 | 資料清洗總匯

AI說書 - Prompt Engineering - 63 | 引導式對話

AI說書 - 從0開始 - 107 | AI怎麼處理沒看過的字

AI說書 - Prompt Engineering - 62 | Scenario Based Prompt 範例回應

AI說書 - Prompt Engineering - 61 | Scenario Based Prompt 撰寫範例

AI說書 - Prompt Engineering - 64 | 引導式對話

AI說書 - 從0開始 - 108 | 資料清洗總匯

AI說書 - Prompt Engineering - 63 | 引導式對話

AI說書 - 從0開始 - 107 | AI怎麼處理沒看過的字

AI說書 - Prompt Engineering - 62 | Scenario Based Prompt 範例回應

AI說書 - Prompt Engineering - 61 | Scenario Based Prompt 撰寫範例

你可能也想看

「天天秋嗨嗨」：vocus 秋季徵文，五大主題 & 獎品登場！

美國大選『終局之戰』（Endgame）即將展開， 美股將迎來新世紀？（上篇：模型推導寶座花落誰家？）

如果這個世界有神，那祂一定姓李名相赫｜矮袋鼠律師

AI說書 - 從0開始 - 106 | 低頻率詞彙篩除方法

AI說書 - 從0開始 - 105 | AI 資料準備

AI說書 - 從0開始 - 104 | 資料清洗一次教

AI說書 - 從0開始 - 103

AI說書 - 從0開始 - 66

AI說書 - 從0開始 - 62

AI說書 - 從0開始 - 59

AI說書 - 從0開始 - 58

AI說書 - 從0開始 - 57

AI說書 - 從0開始 - 54

「天天秋嗨嗨」：vocus 秋季徵文，五大主題 & 獎品登場！

美國大選『終局之戰』（Endgame）即將展開， 美股將迎來新世紀？（上篇：模型推導寶座花落誰家？）

如果這個世界有神，那祂一定姓李名相赫｜矮袋鼠律師

AI說書 - 從0開始 - 106 | 低頻率詞彙篩除方法

AI說書 - 從0開始 - 105 | AI 資料準備

AI說書 - 從0開始 - 104 | 資料清洗一次教

AI說書 - 從0開始 - 103

AI說書 - 從0開始 - 66

AI說書 - 從0開始 - 62

AI說書 - 從0開始 - 59

AI說書 - 從0開始 - 58

AI說書 - 從0開始 - 57

AI說書 - 從0開始 - 54

美國大選『終局之戰』（Endgame）即將展開，美股將迎來新世紀？（上篇：模型推導寶座花落誰家？）

美國大選『終局之戰』（Endgame）即將展開，美股將迎來新世紀？（上篇：模型推導寶座花落誰家？）