AI說書 - 從0開始 - 108 | 資料清洗總匯

2024/07/30 更新2024/07/30 發佈閱讀 3 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

總結一下目前有的素材：

AI說書 - 從0開始 - 103：資料集載入
AI說書 - 從0開始 - 104：定義資料清洗的函數
AI說書 - 從0開始 - 105：資料集的資料進行資料清洗
AI說書 - 從0開始 - 106：定義空白表單、詞彙計數器的函數 (排除頻率低的詞彙)
AI說書 - 從0開始 - 107：定義將沒看過的詞彙轉為 'unk' 的函數

現在我們將這些素材匯集在一起：

# Load English dataset
filename = 'English.pkl'
lines = load_clean_sentences(filename)

# Calculate vocabulary
vocab = to_vocab(lines)
print('English Vocabulary: %d' % len(vocab))

# Reduce vocabulary
vocab = trim_vocab(vocab, 5)
print('New English Vocabulary: %d' % len(vocab))

# Mark out of vocabulary words
lines = update_dataset(lines, vocab)

# Save updated dataset
filename = 'english_vocab.pkl'
save_clean_sentences(lines, filename)

# Spot check
for i in range(20):
	print("line", i, ":", lines[i])

運行結果為：

以及：

上述是針對英文資料集的作法，以下針對法文資料集重做一遍：

# Load French dataset
filename = 'French.pkl'
lines = load_clean_sentences(filename)

# Calculate vocabulary
vocab = to_vocab(lines)
print('French Vocabulary: %d' % len(vocab))

# Reduce vocabulary
vocab = trim_vocab(vocab, 5)
print('New French Vocabulary: %d' % len(vocab))

# Mark out of vocabulary words
lines = update_dataset(lines, vocab)

# Save updated dataset
filename = 'french_vocab.pkl'
save_clean_sentences(lines, filename)

# Spot check
for i in range(20):
	print("line", i, ":", lines[i])

運行結果為：

以及：

Learn AI 不 BI三分鐘學AIAI從0開始-第四章

留言

Learn AI 不 BI

249會員

1.1K內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2024/08/10

AI說書 - 從0開始 - 122 | 第四章額外閱讀項目

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 99 到 AI說書 - 從0開始 - 121，我們完成書籍：Transformers for Natural Language Proc

2024/08/10

AI說書 - 從0開始 - 122 | 第四章額外閱讀項目

2024/08/09

AI說書 - 從0開始 - 121 | Back-Translation 使用情境

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們在 AI說書 - 從0開始 - 120 中使用 Google Gemini 將一段英文翻譯成法文，那我不是法文專業者，怎麼知道翻譯的好不好呢？我可以使用 B

2024/08/09

AI說書 - 從0開始 - 121 | Back-Translation 使用情境

2024/08/09

AI說書 - 從0開始 - 120 | Google Gemini 使用

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。現在我們來看看 Google Gemini (https://gemini.google.com/ to start a dialog) 的能力：回答如下：

2024/08/09

AI說書 - 從0開始 - 120 | Google Gemini 使用

看更多

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇：帕拉贊諾夫的十段殘篇》，如何以十段殘篇，結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭，探討藝術在儀式消失的現代社會如何承接意義，並展現不羈的自由靈魂。

#釀電影#釀評論#藝術評論

2026/02/11

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

#釀電影#釀評論#藝術評論

2026/02/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11