AI說書 - 從0開始 - 185 | 初始化 Trainer

更新 發佈閱讀 1 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


整理目前手上有的素材:


在訓練模型之前,尚需要進行 Trainer 初始化:

from transformers import Trainer 
from datetime import datetime
from typing import Dict, Any

class CustomTrainer(Trainer):
def log(self, logs: Dict[str, Any]) -> None:
super().log(logs)
if "step" in logs: # Check if "step" key is in the logs dictionary
step = int(logs["step"])
if step % self.args.eval_steps == 0:
print(f"Current time at step {step}: {datetime.now()}")


import logging
from transformers import Trainer, TrainingArguments

logging.basicConfig(level = logging.INFO)

training_args = TrainingArguments(output_dir = "/content/model/model/",
overwrite_output_dir = True,
num_train_epochs = 2,
per_device_train_batch_size = 128,
per_device_eval_batch_size = 128,
warmup_steps = 500, # for learning rate scheduler
weight_decay = 0.01, # adding a small penalty for larger weights to the loss to prevent overfitting
save_steps = 10000,
save_total_limit = 2, # the maximum number of checkpoint model files to keep
logging_dir = '/content/model/logs/',
logging_steps = 10,
logging_first_step = True,
evaluation_strategy = "steps",
eval_steps = 500,
fp16 = True)


trainer = CustomTrainer(model = model,
args = training_args,
data_collator = data_collator,
train_dataset = tokenized_datasets["train"],
eval_dataset = tokenized_datasets["test"])


較為精簡版的 Training Argument 見 AI說書 - 從0開始 - 176 | 初始化 Trainer

直接使用,而非目前這種客製化的 Trainer 見 AI說書 - 從0開始 - 176 | 初始化 Trainer

留言
avatar-img
留言分享你的想法!
avatar-img
Learn AI 不 BI
246會員
996內容數
這裡將提供: AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹,一起在未來AI的世界擁抱AI技術,不BI。
Learn AI 不 BI的其他內容
2024/09/25
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 159 | Pretain 模型緣起 到 AI說書 - 從0開始 - 189 | 製作聊天介面,我們完成書籍:Transformers
2024/09/25
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 159 | Pretain 模型緣起 到 AI說書 - 從0開始 - 189 | 製作聊天介面,我們完成書籍:Transformers
2024/09/24
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 整理目前手上有的素材: AI說書 - 從0開始 - 180 | RoBERTa 預訓練前言:RoBERTa 預訓練前言 AI說書 - 從0開始 - 181 | 預訓
2024/09/24
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 整理目前手上有的素材: AI說書 - 從0開始 - 180 | RoBERTa 預訓練前言:RoBERTa 預訓練前言 AI說書 - 從0開始 - 181 | 預訓
2024/09/24
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 整理目前手上有的素材: AI說書 - 從0開始 - 180 | RoBERTa 預訓練前言:RoBERTa 預訓練前言 AI說書 - 從0開始 - 181 | 預訓
Thumbnail
2024/09/24
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 整理目前手上有的素材: AI說書 - 從0開始 - 180 | RoBERTa 預訓練前言:RoBERTa 預訓練前言 AI說書 - 從0開始 - 181 | 預訓
Thumbnail
看更多
你可能也想看
Thumbnail
嗨大家好!我是重度網購患者賴床鴨鴨!每年最期待的蝦皮12.12又要來了,我的購物車也早已瀕臨爆炸邊緣。 尤其是我最近在做的「高速負離子吹風機」評比,一口氣比較了5款,每台都想帶回家!但身為一個精打細算的小資族,我發現了一個天大的祕密:原來在蝦皮購物,居然可以不只省錢,還能偷偷賺錢! 今天這篇,我
Thumbnail
嗨大家好!我是重度網購患者賴床鴨鴨!每年最期待的蝦皮12.12又要來了,我的購物車也早已瀕臨爆炸邊緣。 尤其是我最近在做的「高速負離子吹風機」評比,一口氣比較了5款,每台都想帶回家!但身為一個精打細算的小資族,我發現了一個天大的祕密:原來在蝦皮購物,居然可以不只省錢,還能偷偷賺錢! 今天這篇,我
Thumbnail
又到了每年最溫(ㄏㄨㄚ)馨(ㄑㄧㄢˊ)的季節,其實在還單身的時候,我並沒有特別喜愛這個節日,但自從去了歐洲生活,再加上有了孩子後,對於聖誕節的好感與日俱增,除了要幫孩子準備聖誕禮物,還需要幫家佈置一下才有儀式感,若你對於今年的聖誕禮物還沒有頭緒?趁著蝦皮雙12的優惠,快來看看我買了什麼吧!
Thumbnail
又到了每年最溫(ㄏㄨㄚ)馨(ㄑㄧㄢˊ)的季節,其實在還單身的時候,我並沒有特別喜愛這個節日,但自從去了歐洲生活,再加上有了孩子後,對於聖誕節的好感與日俱增,除了要幫孩子準備聖誕禮物,還需要幫家佈置一下才有儀式感,若你對於今年的聖誕禮物還沒有頭緒?趁著蝦皮雙12的優惠,快來看看我買了什麼吧!
Thumbnail
來了來了~~~購物狂最期待的大日子真的就是-蝦皮 12.12,折扣真的一年比一年還誇張,價格越殺越狠,各種免運、滿額折、品牌券直接發到領不完! 從這裡加入我的分潤連結:https://s.shopee.tw/7fSd8GVvNC 推薦碼請填:A6ZVDYE
Thumbnail
來了來了~~~購物狂最期待的大日子真的就是-蝦皮 12.12,折扣真的一年比一年還誇張,價格越殺越狠,各種免運、滿額折、品牌券直接發到領不完! 從這裡加入我的分潤連結:https://s.shopee.tw/7fSd8GVvNC 推薦碼請填:A6ZVDYE
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經有資料集在 AI說書 - 從0開始 - 103 ,必要的清理函數在 AI說書 - 從0開始 - 104 ,現在把它們湊在一起,如下: # load Eng
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 目前我們已經有資料集在 AI說書 - 從0開始 - 103 ,必要的清理函數在 AI說書 - 從0開始 - 104 ,現在把它們湊在一起,如下: # load Eng
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續xxxx,ChatGPT 產生的程式,我們將它匯入 Colab 執行看看 ( Colab 使用教學見 使用Meta釋出的模型,實作Chat GPT - Part 0
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續xxxx,ChatGPT 產生的程式,我們將它匯入 Colab 執行看看 ( Colab 使用教學見 使用Meta釋出的模型,實作Chat GPT - Part 0
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先做個總回顧: Transformer 架構總覽:AI說書 - 從0開始 - 39 Attention 意圖說明:AI說書 - 從0開始 - 40 Transfo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 先做個總回顧: Transformer 架構總覽:AI說書 - 從0開始 - 39 Attention 意圖說明:AI說書 - 從0開始 - 40 Transfo
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News