AI說書 - 從0開始 - 232 | 微調 GPT 模型的資料集準備

更新 發佈閱讀 4 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


先列出目前擁有的材料:


接著開始準備資料集:

!curl -L https://raw.githubusercontent.com/Denis2054/Transformers-for-NLP-and-Computer-Vision-3rd-Edition/master/Chapter08/gutenberg.org_cache_epub_4280_pg4280.html --output "gutenberg.org_cache_epub_4280_pg4280.html"

with open("gutenberg.org_cache_epub_4280_pg4280.html", 'r', encoding = 'utf-8') as file:
file_contents = file.read()

soup = BeautifulSoup(file_contents, 'html.parser')


接著進行清洗處理:

text = soup.get_text()
text = re.sub('\s+', ' ', text).strip()
sentences = sent_tokenize(text)


當中有幾點要注意:

  • 將 text 中所有連續的空白字符(\s+ 表示一個或多個空白字符)替換成單個空格
  • .strip():這部分移除 text 字符串開頭和結尾的所有空白字符


然而 OpenAI 對於訓練資料的 Prompt 與 Completion 有嚴謹定義,因此處理如下:

prompt_separator = " ->"
completion_ending = "\n"

data = []

for i in range(len(sentences) - 1):
data.append({"prompt": sentences[i] + prompt_separator,
"completion": " " + sentences[i + 1] + completion_ending})

with open('kant_prompts_and_completions.json', 'w') as f:
for line in data:
f.write(json.dumps(line) + '\n')


留言
avatar-img
Learn AI 不 BI
249會員
1.1K內容數
這裡將提供: AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹,一起在未來AI的世界擁抱AI技術,不BI。
Learn AI 不 BI的其他內容
2024/11/11
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 227 | 第八章引言 到 AI說書 - 從0開始 - 243 | 微調 GPT 模型與 GPT4 比較,我們完成書籍:Transfor
2024/11/11
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 227 | 第八章引言 到 AI說書 - 從0開始 - 243 | 微調 GPT 模型與 GPT4 比較,我們完成書籍:Transfor
2024/11/10
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先列出目前擁有的材料: 微調 GPT 模型引言:AI說書 - 從0開始 - 229 | 微調 GPT 模型引言 微調 GPT 模型的前置步驟:AI說書 - 從0開始
Thumbnail
2024/11/10
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先列出目前擁有的材料: 微調 GPT 模型引言:AI說書 - 從0開始 - 229 | 微調 GPT 模型引言 微調 GPT 模型的前置步驟:AI說書 - 從0開始
Thumbnail
2024/11/09
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先列出目前擁有的材料: 微調 GPT 模型引言:AI說書 - 從0開始 - 229 | 微調 GPT 模型引言 微調 GPT 模型的前置步驟:AI說書 - 從0開始
2024/11/09
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先列出目前擁有的材料: 微調 GPT 模型引言:AI說書 - 從0開始 - 229 | 微調 GPT 模型引言 微調 GPT 模型的前置步驟:AI說書 - 從0開始
看更多
你可能也想看
Thumbnail
債券投資,不只是高資產族群的遊戲 在傳統的投資觀念中,海外債券(Overseas Bonds)常被貼上「高資產族群專屬」的標籤。過去動輒 1 萬甚至 10 萬美元的最低申購門檻,讓許多想尋求穩定配息的小資族望而卻步。 然而,在股市波動劇烈的環境下,尋求穩定的美元現金流與被動收入成為許多投資人
Thumbnail
債券投資,不只是高資產族群的遊戲 在傳統的投資觀念中,海外債券(Overseas Bonds)常被貼上「高資產族群專屬」的標籤。過去動輒 1 萬甚至 10 萬美元的最低申購門檻,讓許多想尋求穩定配息的小資族望而卻步。 然而,在股市波動劇烈的環境下,尋求穩定的美元現金流與被動收入成為許多投資人
Thumbnail
透過川普的近期債券交易揭露,探討債券作為資產配置中「穩定磐石」的重要性。文章分析降息對債券的潛在影響,以及股神巴菲特的操作策略。並介紹玉山證券「小額債」平臺,如何讓小資族也能低門檻參與海外債券市場,實現「低門檻、低波動、固定收益」的務實投資方式。
Thumbnail
透過川普的近期債券交易揭露,探討債券作為資產配置中「穩定磐石」的重要性。文章分析降息對債券的潛在影響,以及股神巴菲特的操作策略。並介紹玉山證券「小額債」平臺,如何讓小資族也能低門檻參與海外債券市場,實現「低門檻、低波動、固定收益」的務實投資方式。
Thumbnail
解析「債券」如何成為資產配置中的穩定錨,提供低風險高回報的投資選項。 藉由玉山證券的低門檻債券服務,投資者可輕鬆入手,平衡風險並穩定財務。
Thumbnail
解析「債券」如何成為資產配置中的穩定錨,提供低風險高回報的投資選項。 藉由玉山證券的低門檻債券服務,投資者可輕鬆入手,平衡風險並穩定財務。
Thumbnail
相較於波動較大的股票,債券能提供固定現金流,而玉山證券推出的小額債,更以1000 美元的低門檻,讓學生與新手也能參與全球優質企業債投資。玉山E-Trader平台即時報價、條件式篩選與清楚的交易流程等特色,大幅降低投資難度,對於希望分散風險、建立穩定現金流的人來說,玉山小額債是一個值得嘗試的理財起點。
Thumbnail
相較於波動較大的股票,債券能提供固定現金流,而玉山證券推出的小額債,更以1000 美元的低門檻,讓學生與新手也能參與全球優質企業債投資。玉山E-Trader平台即時報價、條件式篩選與清楚的交易流程等特色,大幅降低投資難度,對於希望分散風險、建立穩定現金流的人來說,玉山小額債是一個值得嘗試的理財起點。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先列出目前擁有的材料: 微調 GPT 模型引言:AI說書 - 從0開始 - 229 | 微調 GPT 模型引言 微調 GPT 模型的前置步驟:AI說書 - 從0開始
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先列出目前擁有的材料: 微調 GPT 模型引言:AI說書 - 從0開始 - 229 | 微調 GPT 模型引言 微調 GPT 模型的前置步驟:AI說書 - 從0開始
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先列出目前擁有的材料: 微調 GPT 模型引言:AI說書 - 從0開始 - 229 | 微調 GPT 模型引言 微調 GPT 模型的前置步驟:AI說書 - 從0開始
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先列出目前擁有的材料: 微調 GPT 模型引言:AI說書 - 從0開始 - 229 | 微調 GPT 模型引言 微調 GPT 模型的前置步驟:AI說書 - 從0開始
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先列出目前擁有的材料: 微調 GPT 模型引言:AI說書 - 從0開始 - 229 | 微調 GPT 模型引言 微調 GPT 模型的前置步驟:AI說書 - 從0開始
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先列出目前擁有的材料: 微調 GPT 模型引言:AI說書 - 從0開始 - 229 | 微調 GPT 模型引言 微調 GPT 模型的前置步驟:AI說書 - 從0開始
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先列出目前擁有的材料: 微調 GPT 模型引言:AI說書 - 從0開始 - 229 | 微調 GPT 模型引言 微調 GPT 模型的前置步驟:AI說書 - 從0開始
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先列出目前擁有的材料: 微調 GPT 模型引言:AI說書 - 從0開始 - 229 | 微調 GPT 模型引言 微調 GPT 模型的前置步驟:AI說書 - 從0開始
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先列出目前擁有的材料: 微調 GPT 模型引言:AI說書 - 從0開始 - 229 | 微調 GPT 模型引言 微調 GPT 模型的前置步驟:AI說書 - 從0開始
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先列出目前擁有的材料: 微調 GPT 模型引言:AI說書 - 從0開始 - 229 | 微調 GPT 模型引言 微調 GPT 模型的前置步驟:AI說書 - 從0開始
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先列出目前擁有的材料: 微調 GPT 模型引言:AI說書 - 從0開始 - 229 | 微調 GPT 模型引言 微調 GPT 模型的前置步驟:AI說書 - 從0開始
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先列出目前擁有的材料: 微調 GPT 模型引言:AI說書 - 從0開始 - 229 | 微調 GPT 模型引言 微調 GPT 模型的前置步驟:AI說書 - 從0開始
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先列出目前擁有的材料: 微調 GPT 模型引言:AI說書 - 從0開始 - 229 | 微調 GPT 模型引言 微調 GPT 模型的前置步驟:AI說書 - 從0開始
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先列出目前擁有的材料: 微調 GPT 模型引言:AI說書 - 從0開始 - 229 | 微調 GPT 模型引言 微調 GPT 模型的前置步驟:AI說書 - 從0開始
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先列出目前擁有的材料: 微調 GPT 模型引言:AI說書 - 從0開始 - 229 | 微調 GPT 模型引言 微調 GPT 模型的前置步驟:AI說書 - 從0開始
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先列出目前擁有的材料: 微調 GPT 模型引言:AI說書 - 從0開始 - 229 | 微調 GPT 模型引言 微調 GPT 模型的前置步驟:AI說書 - 從0開始
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News