AI說書 - 從0開始 - 232 | 微調 GPT 模型的資料集準備

2024/10/30 更新2024/10/30 發佈閱讀 4 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

先列出目前擁有的材料：

微調 GPT 模型引言：AI說書 - 從0開始 - 229 | 微調 GPT 模型引言
微調 GPT 模型的前置步驟：AI說書 - 從0開始 - 230 | 微調 GPT 模型的前置步驟
微調 GPT 模型的函式庫安裝：AI說書 - 從0開始 - 231 | 微調 GPT 模型的函式庫安裝

接著開始準備資料集：

!curl -L https://raw.githubusercontent.com/Denis2054/Transformers-for-NLP-and-Computer-Vision-3rd-Edition/master/Chapter08/gutenberg.org_cache_epub_4280_pg4280.html --output "gutenberg.org_cache_epub_4280_pg4280.html"

with open("gutenberg.org_cache_epub_4280_pg4280.html", 'r', encoding = 'utf-8') as file:
	file_contents = file.read()

soup = BeautifulSoup(file_contents, 'html.parser')

接著進行清洗處理：

text = soup.get_text()
text = re.sub('\s+', ' ', text).strip()
sentences = sent_tokenize(text)

當中有幾點要注意：

將 text 中所有連續的空白字符（\s+ 表示一個或多個空白字符）替換成單個空格
.strip()：這部分移除 text 字符串開頭和結尾的所有空白字符

然而 OpenAI 對於訓練資料的 Prompt 與 Completion 有嚴謹定義，因此處理如下：

prompt_separator = " ->"
completion_ending = "\n"

data = []

for i in range(len(sentences) - 1):
	data.append({"prompt": sentences[i] + prompt_separator,
	             "completion": " " + sentences[i + 1] + completion_ending})
	             
with open('kant_prompts_and_completions.json', 'w') as f:
	for line in data:
		f.write(json.dumps(line) + '\n')

Learn AI 不 BI三分鐘學AI (2)AI從0開始-第八章

留言

留言分享你的想法！

Learn AI 不 BI

240會員

883內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2024/11/11

AI說書 - 從0開始 - 244 | 第八章額外閱讀項目

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 227 | 第八章引言到 AI說書 - 從0開始 - 243 | 微調 GPT 模型與 GPT4 比較，我們完成書籍：Transfor

2024/11/11

AI說書 - 從0開始 - 244 | 第八章額外閱讀項目

2024/11/10

AI說書 - 從0開始 - 243 | 微調 GPT 模型與 GPT4 比較

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先列出目前擁有的材料：微調 GPT 模型引言：AI說書 - 從0開始 - 229 | 微調 GPT 模型引言微調 GPT 模型的前置步驟：AI說書 - 從0開始

2024/11/10

AI說書 - 從0開始 - 243 | 微調 GPT 模型與 GPT4 比較

2024/11/09

AI說書 - 從0開始 - 242 | 微調 GPT 模型與 GPT4 比較

2024/11/09

AI說書 - 從0開始 - 242 | 微調 GPT 模型與 GPT4 比較

看更多

你可能也想看

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15