Learn AI 不 BI

AI說書 - 從0開始 - 249 | BertViz 安裝

發佈於三分鐘學AI (2)

更新於 2024/11/14發佈於 2024/11/14閱讀時間約 4 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

Jesse Vig 的文章 A Multiscale Visualization of Attention in the Transformer Model, 2019 認可了 Transformer 模型的有效性，然而，Jesse Vig 解釋說，破解注意力機制具有挑戰性，論文描述了可視化工具 BertViz 的流程，BertViz 可以視覺化注意力頭活動並解釋 Transformer 模型的行為。

以下開始安裝 BertViz 的程式：

!pip install bertviz
from bertviz import head_view, model_view
from transformers import BertTokenizer, BertModel

接著載入預計要研究的模型：

model_version = 'bert-base-uncased'
do_lower_case = True
model = BertModel.from_pretrained(model_version, output_attentions = True)
tokenizer = BertTokenizer.from_pretrained(model_version, do_lower_case = do_lower_case)

再來輸入測試句子：

sentence_a = "A lot of people like animals so they adopt cats"
sentence_b = "A lot of people like animals so they adopt dogs"

inputs = tokenizer.encode_plus(sentence_a, sentence_b, return_tensors = 'pt', add_special_tokens = True)
token_type_ids = inputs['token_type_ids']
input_ids = inputs['input_ids']
attention = model(input_ids, token_type_ids = token_type_ids)[-1]
sentence_b_start = token_type_ids[0].tolist().index(1)
input_id_list = input_ids[0].tolist() # Batch index 0
tokens = tokenizer.convert_ids_to_tokens(input_id_list)

當中 Token_Type_IDs 就是 Token 對應的句子 ID，值為 0 或 1 (0 表示對應的 Token 屬於第一句，1 表示屬於第二句)，形狀為 (Batch_Size, Sequence_Length)。

#PromptEngineering

#chatgpt怎麼用

Learn AI 不 BI三分鐘學AI (2)AI從0開始-第九章

Learn AI 不 BI

198會員

512內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

留言

留言分享你的想法！

‌

‌
‌

‌
‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌
‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌
‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌
‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌
‌

‌
‌

‌

‌
‌

‌

‌
‌

Learn AI 不 BI 的其他內容

AI說書 - 從0開始 - 248 | 第九章總覽

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在本章結束時，您將能夠與使用者互動以顯示 Transformer 模型活動的視覺化，Transformer 的解譯工具還有很長的路要走，然而，這些新興工具將幫助開發人員

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 247 | 第九章引言

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。數百萬到萬億參數的 Transformer 模型，例如 ChatGPT 和 GPT-4，似乎是無法穿透的黑盒子，沒有人可以解釋，因此，許多開發人員和使用者在處理這些令人

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 248 | 第九章總覽

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在本章結束時，您將能夠與使用者互動以顯示 Transformer 模型活動的視覺化，Transformer 的解譯工具還有很長的路要走，然而，這些新興工具將幫助開發人員

#AI #ai #PromptEngineering

AI說書 - 從0開始 - 247 | 第九章引言

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。數百萬到萬億參數的 Transformer 模型，例如 ChatGPT 和 GPT-4，似乎是無法穿透的黑盒子，沒有人可以解釋，因此，許多開發人員和使用者在處理這些令人

#AI #ai #PromptEngineering

你可能也想看

Google News 追蹤

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 129 | BERT 模型兩種訓練方式引言

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Bidirectional Encoder Representations from Transformers (BERT) 只有 Encoder Layer，沒有 D

#AI #ai #promptengineering

Learn AI 不 BI

AI說書 - 從0開始 - 128 | Transformer 和 BERT 模型參數比較

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 127 中提及： Transformer 的關鍵參數為：原始 Transformer 模型中，左圖的 N = 6 原始 Tran

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 127 | BERT 和 Transformer 模型比較

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容，我們拿 Encoder 出來看：幾點注意如下： BERT 模型使用 M

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 125 | 第五章目錄

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在某些情況下，別人提供的 Pretrained Transformer Model 效果不盡人意，可能會想要自己做 Pretrained Model，但是這會耗費大量運

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 53

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 52 中，我們已經解析完 Attention 機制如何運作的，以下延伸至 Multi-Head Attention： Head 1

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 52

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 38

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。既然要談論 Transformer 的 Attention 機制，我們必須要談論以下主題： Transformer 架構自注意力機制編碼與解碼 Embedd

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 21

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在AI說書 - 從0開始 - 20中，闡述GPT模型的Supervised and Unsupervised觀點，接著一樣引述書籍：Transformers f

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 5

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧我們在AI說書 - 從0開始 - 4中說Transformer的精髓就是考慮「字與字之間的配對關係」，我們稱其為Attention Layer，再搭配我們在機器學習

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 129 | BERT 模型兩種訓練方式引言

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Bidirectional Encoder Representations from Transformers (BERT) 只有 Encoder Layer，沒有 D

#AI #ai #promptengineering

Learn AI 不 BI

AI說書 - 從0開始 - 128 | Transformer 和 BERT 模型參數比較

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 127 中提及： Transformer 的關鍵參數為：原始 Transformer 模型中，左圖的 N = 6 原始 Tran

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 127 | BERT 和 Transformer 模型比較

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容，我們拿 Encoder 出來看：幾點注意如下： BERT 模型使用 M

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 125 | 第五章目錄

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在某些情況下，別人提供的 Pretrained Transformer Model 效果不盡人意，可能會想要自己做 Pretrained Model，但是這會耗費大量運

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 53

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在 AI說書 - 從0開始 - 52 中，我們已經解析完 Attention 機制如何運作的，以下延伸至 Multi-Head Attention： Head 1

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 52

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 38

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。既然要談論 Transformer 的 Attention 機制，我們必須要談論以下主題： Transformer 架構自注意力機制編碼與解碼 Embedd

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 21

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在AI說書 - 從0開始 - 20中，闡述GPT模型的Supervised and Unsupervised觀點，接著一樣引述書籍：Transformers f

#AI #ai #PromptEngineering

Learn AI 不 BI

AI說書 - 從0開始 - 5

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧我們在AI說書 - 從0開始 - 4中說Transformer的精髓就是考慮「字與字之間的配對關係」，我們稱其為Attention Layer，再搭配我們在機器學習

#AI #ai #PromptEngineering