我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。要學習 BERT (Bidirectional Encoder Representations from Transformers) 的架構,需要先複習本書第二章的 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69。有了這些基礎,其他模型就像堆樂高積木一樣可以透過巧思與創意進行創作。