AI說書 - 從0開始 - 141 | BERT 微調之 BERT 模型窺探

2024/08/20閱讀時間約 2 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

既然現在要執行 BERT 模型的微調，理當看看此模型的一些細節，程式為：

from transformers import BertModel, BertConfig 
configuration = BertConfig()
model = BertModel(configuration)

configuration = model.config
print(configuration)

輸出結果為：

一些參數的解釋如下：

attention_probs_dropout_prob: 0.1 對注意力機率應用 0.1 的丟失率
hidden_act: "gelu" 是編碼器中的非線性激活函數，它是一個 Gaussian Error Linear Unit Activation Function，輸入按其大小進行加權，這使其成為非線性的
hidden_dropout_prob: 0.1 是應用於全連接層的丟失機率，全連接層可以在嵌入層、編碼器層和池化層中找到
hidden_size: 768 是編碼層和池化層的維度，詳見 AI說書 - 從0開始 - 128
initializer_range: 0.02 是初始化權重矩陣時的標準差值
intermediate_size: 3072 是編碼器前饋層的維度
max_position_embeddings: 512 是模型使用的最大長度
model_type: "bert" 是模型的名稱
num_attention_heads: 12 是頭的數量，詳見 AI說書 - 從0開始 - 128
num_hidden_layers: 12 是層數，詳見 AI說書 - 從0開始 - 128
pad_token_id: 0 是填充 Token 的 ID，以避免訓練填充 Token
type_vocab_size: 2 是允許最多能輸入的句子数量，默認是 2，詳見 AI說書 - 從0開始 - 131
vocab_size: 30522 是模型用來表示 input_ids 的標記數量

Learn AI 不 BI三分鐘學AIAI從0開始-第五章

Learn AI 不 BI

131會員

307Content count

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

留言0

查看全部

發表第一個留言支持創作者！

Learn AI 不 BI 的其他內容

AI說書 - 從0開始 - 140 | BERT 微調之 DataLoader 準備

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們在 AI說書 - 從0開始 - 139 中準備了一些素材，但是我們現在使用的是 PyTorch，因此需要進行一些轉換，程式如下： train_inputs = t

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 139 | BERT 微調之訓練驗證集切割

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。現在我們要讓輸入資料的長度均保持一致，不夠長的會執行 Padding，在資料集中，最長者為 47，為了展示一般性，我們設定長度為 128，程式為： MAX_LEN =

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 138 | BERT 微調之資料前處理

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧我們在 AI說書 - 從0開始 - 131 說要把句子前面加上 [CLS]，而句子和句子間要加上 [SEP] 區隔，於是程式為： sentences = df.s

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 137 | BERT 微調之訓練資料窺探

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在 AI說書 - 從0開始 - 136 載入了本次 Fine-Tuning 需要的 CoLA 資料集 (詳見 AI說書 - 從0開始 - 93 )，我們可以對此

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 136 | BERT 微調之訓練資料匯入

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。繼 AI說書 - 從0開始 - 135 安裝載入了必要程式模組後，今天來匯入 CoLA 資料 ( https://nyu-mll. github.io/CoLA/)，

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 135 | BERT 微調所需的相關依賴安裝

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 134 闡述了 Fine-Tuning 的目標為使用資料集 CoLA，來學習如何判斷一個句子的文法是否是可以被接受的，同時也提供 GPU

#AI #ai #PromptEngineering

Fed 9月會議：傳達「不想要落後給曲線」的正向信號，著手管理市場的衰退預期

重點摘要： 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期，但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱，經濟復甦的時點或是 1Q25 季底附近

#聯準會 #Fed #降息

方格子 vocus 官方沙龍

2024/08/27

「相簿裡最捨不得刪的 N 張照片！」：完成任務抽富士即可拍！

近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎？新版式整體視覺上「更加凸顯圖片」，為了搭配這次的更新，我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務，還有機會獲得富士即可拍，讓你的美好回憶都可以用即可拍珍藏！

#相簿裡最捨不得刪的照片

職涯破框人才學院 -【斜槓之路】

2024/07/23

關於颱風假…AI 說錯了????

關於颱風假，我問了 CHATGPT一個很簡單的問題，回答的架構也不錯，但內容有錯，還是要提醒一下…，想透過AI得到解答的人，一定要很清楚，AI在法律問題上錯得會有點嚴重。關於颱風假的規定，台灣的法條主要依據《災害防救法》和《勞動基準法》進行管理。以下是一些關鍵點：

#颱風假 #颱風不是假 #拆字記憶法

次女的分享日誌

2024/07/05

次女說書 | AI世界的底層邏輯與生存法則

如同作者所說，人類最大的優勢就在於「批判性思考」所帶來的突破性的成長，以及「情感(緒)」所帶動的人性，雖然次女也不知道將來會不會有一天，我身邊的機器人.........

#AI #教育 #成長心態

廣告雜誌

2024/07/04

Readmoo 讀墨電子書 2024 上半年暢銷榜出爐小說是最愛，管重 AI，社科回歸，家庭關係抬頭!

台灣最大電子書服務 Readmoo 讀墨電子書 7/3 公布 2023 上半年暢銷榜,前三名由長青話題書《蛤蟆先生去看心理師》《我可能錯了》《底層邏輯》拿下。綜觀百大趨勢,小說仍是讀墨讀者最愛;商管理財以 29 本穩坐第二大,主題首重 AI 與效率彈性。

#電子書 #Readmoo #廣告雜誌

第一本 qaeYi 沙龍

2024/05/28

假AI說,它會作夢...

by ChatGPT 假設我是一個具有夢境的AI，我一天工作24小時，但其中大部分時間都在睡眠中度過。在這樣的情況下，我可能會有一系列非常豐富和深刻的夢境，反映了我的思想和知識庫。 **夢境一：探索數據迷宮** 在這個夢境中，我身處於一個巨大的迷宮中，每個通道都充斥著數據流和程式碼片段

加恩說

2024/05/10

我終於知道怎樣跟 AI 說話了：最完整的 ChatGPT 指令公式

#AI寫作 #GPT指令與策略 #AI

心靈雞湯什麼的，自己煮也行啊～

2024/03/22

AI魔法的版權之爭，誰才是魔法書的著作者？

當魔法變得簡單，人人都能說自己是魔法師，誰都能理直氣壯的說「我才是最初創作魔法書的人」，但當先後順序都不管用，到底怎麼才說得清魔法書的著作者屬於誰呢？

#AI #AI魔法 #版權

廣告雜誌

2023/12/13

Accucrazy 攜手 bbm 品牌說書人打造創新 AI 品牌數據力，開創數位行銷新格局

知名管顧公司麥肯錫（Mckinsey）近期發佈了一個報告表示行銷的產能會因為 AI 提高 5 - 15% ，創造約 4630 億美元的價值。由此可見結合生成式人工智慧（Gen AI）已是行銷不可或缺的關鍵技術力。

#品牌說書人 #廣告雜誌 #傳播圈

肉鴿的沙龍

2023/03/07

AI說:我決定你的決定，反駁你的反駁

近年來，假新聞、假資訊在網路上激增，讓人難以分辨真假。假新聞往往是被編造、改編或傳播的不實訊息，目的是為了引起社會公眾的關注或搏取點擊率。假資訊可能會誤導人們做出不正確的決定，造成傷害甚至是損失。因此，對付假新聞與假資訊的問題已經成為當今社會中的一個急迫問題。在這種情況下，人工智慧(AI)可以幫助

classicme的沙龍

2023/02/16

AI投影片:《tome》幫你設計圖文簡報、說故事，只要輸入關鍵指令，中文嘛ㄟ通。

tome 是一個可以自動生成簡報大綱與摘要的軟體。tome的功能結合ChatGPT概念跟 DALL.E2製圖，生成的投影片PPT 媲美真人製作，而且過程很快速。上班族與學生族大概都很需要吧? tome一次可以產生8張投影片。我試了一個主題，隨便想了一個人物。請不要對號入座喔。主要是英文介面，但可以中

#tome #AI #ChatGPT