前陣子自己手刻了ChatGPT,並發了一系列文章:
使用Meta釋出的模型,實作Chat GPT - Part 0
使用Meta釋出的模型,實作Chat GPT - Part 1
使用Meta釋出的模型,實作Chat GPT - Part 2
使用Meta釋出的模型,實作Chat GPT - Part 3
使用Meta釋出的模型,實作Chat GPT - Part 4
使用Meta釋出的模型,實作Chat GPT - Part 5
使用Meta釋出的模型,實作Chat GPT - Part 6
經過這一系列探討,發現要掌握大型語言模型 (LLM)的理論、實作、微調、提問等等關鍵知識是非常花時間的,而且網路上面的知識多是片面狀的結論,有鑑於此,我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點