我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
# Exit Flow
x = keras.layers.GroupNormalization(epsilon = 1e-5)(x)
x = keras.layers.Activation("swish")(x)
output = PaddedConv2D(4, kernel_size = 3, padding = 1)(x)
當中的 keras.layers.Activation("swish")(x),所執行的運算為:swish(x) = x * sigmoid(x)













