我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
有了 AI說書 - 從0開始 - 254 | Attention Head 輸出機率檢視 的準備,我們可以撰寫以下程式來檢視 Attention Head 的輸出機率:
for layer, attention in enumerate(attentions):
print(f"Layer {layer+1}:")
for head, head_attention in enumerate(attention[0]):
print(f"Head {head+1}:")
for source_token, target_tokens in enumerate(head_attention[:len(tokens)]):
print(f"Source token '{tokens[source_token]}' (index {source_token+1}):")
for target_token, attention_value in enumerate(target_tokens[:len(tokens)]):
print(f"Target token '{tokens[target_token]}' (index {target_token+1}): {attention_value}")
結果為: