AI說書 - 從0開始 - 141 | BERT 微調之 BERT 模型窺探

2024/08/20 更新2024/08/20 發佈閱讀 2 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

既然現在要執行 BERT 模型的微調，理當看看此模型的一些細節，程式為：

from transformers import BertModel, BertConfig 
configuration = BertConfig()
model = BertModel(configuration)

configuration = model.config
print(configuration)

輸出結果為：

一些參數的解釋如下：

attention_probs_dropout_prob: 0.1 對注意力機率應用 0.1 的丟失率
hidden_act: "gelu" 是編碼器中的非線性激活函數，它是一個 Gaussian Error Linear Unit Activation Function，輸入按其大小進行加權，這使其成為非線性的
hidden_dropout_prob: 0.1 是應用於全連接層的丟失機率，全連接層可以在嵌入層、編碼器層和池化層中找到
hidden_size: 768 是編碼層和池化層的維度，詳見 AI說書 - 從0開始 - 128
initializer_range: 0.02 是初始化權重矩陣時的標準差值
intermediate_size: 3072 是編碼器前饋層的維度
max_position_embeddings: 512 是模型使用的最大長度
model_type: "bert" 是模型的名稱
num_attention_heads: 12 是頭的數量，詳見 AI說書 - 從0開始 - 128
num_hidden_layers: 12 是層數，詳見 AI說書 - 從0開始 - 128
pad_token_id: 0 是填充 Token 的 ID，以避免訓練填充 Token
type_vocab_size: 2 是允許最多能輸入的句子数量，默認是 2，詳見 AI說書 - 從0開始 - 131
vocab_size: 30522 是模型用來表示 input_ids 的標記數量

Learn AI 不 BI三分鐘學AIAI從0開始-第五章

留言

Learn AI 不 BI

249會員

1.1K內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2024/08/30

AI說書 - 從0開始 - 156 | 第五章額外閱讀

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 125 到 AI說書 - 從0開始 - 155 | 文法判斷介面成果展示，我們完成書籍：Transformers for Natural

2024/08/30

AI說書 - 從0開始 - 156 | 第五章額外閱讀

2024/08/30

AI說書 - 從0開始 - 155 | 文法判斷介面成果展示

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧一下目前手上有的素材：訓練的必要模組安裝：AI說書 - 從0開始 - 135 載入資料集：AI說書 - 從0開始 - 136 資料集窺探：AI說書 - 從0

2024/08/30

AI說書 - 從0開始 - 155 | 文法判斷介面成果展示

2024/08/29

AI說書 - 從0開始 - 154 | 製作預測文法正確與否的聊天介面

2024/08/29

AI說書 - 從0開始 - 154 | 製作預測文法正確與否的聊天介面

看更多

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品，以十段寓言式殘篇，重新拼貼記憶、暴力與美學，並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇：帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略，嘗試解析極權底下不可言說之事，將如何成為可被觀看的公共發聲。

#釀電影#釀評論#藝術評論

2026/01/14

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

#釀電影#釀評論#藝術評論

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

柏林劇團在 2026 北藝嚴選，再次帶來由布萊希特改編的經典劇目《三便士歌劇》（The Threepenny Opera），導演巴里・柯斯基以舞台結構與舞台調度，重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核，藉由沉浸與疏離的辯證，解析此作如何再次照見觀眾自身的位置。

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲．蓋柏樂》的詮釋，從劇本歷史、聲響與舞臺設計，到演員的主體創作方法，探討此版本如何讓經典劇作在當代劇場語境下煥發新生，滿足現代觀眾的觀看慾望。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

涵柳的沙龍

《轉轉生 Re:INCARNATION》：從身體與服裝看見奈及利亞的重生

《轉轉生》為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，融合舞蹈、音樂、時尚和視覺藝術，透過身體、服裝與群舞結構，回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發，分析《轉轉生》如何以當代目光，形塑去殖民視角的奈及利亞歷史。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

涵柳的沙龍

《轉轉生 Re:INCARNATION》：從身體與服裝看見奈及利亞的重生

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14