他們站在一條長長的隊列裡,肩並著肩,安靜而專注,等著傳遞著那個秘密。每個人都知道,這個秘密很重要,絕不能弄丟。他們彼此低聲說著,一字一字地傳遞著,輕聲而小心,就像捧著什麼易碎的東西。秘密開始時很清晰,像山間的泉水一樣透亮。然而,隨著每一層的傳遞,聲音變小了,語氣變弱了,像風中的低語,逐漸變得模糊。
到最後一位時,那個聲音變得幾不可聞,似有若無。最後的人皺著眉,試圖辨認那一絲殘存的回音,但它已經消失在空氣中。他張開嘴,想要說出來,卻發現只剩下幾個模糊的字,像是一首不完整的詩,失去了原本的意義。
這,就是梯度消失。每一層的神經元,像那個隊列中的一員,試圖把「學習的指引」一層層傳遞下去。但每一次傳遞,指引就變得更弱、更遠,最後到了底層,已經不再是它最初的模樣。
科學家們看著這樣的結果,知道這樣不行。於是他們設計了捷徑,讓訊號可以直接從前面的層跳到後面的層,不必經過每一層的稀釋。他們還加了強化器,讓訊號每傳一次都能保持它的力度。這樣,每一層的神經元終於可以聽到原本清晰的指引,不再只是聽見一段模糊的低語。
他們不再站在一排長長的隊伍裡,等著接收微弱的聲音。現在,每個人都能清晰地接收到那個訊號,那個秘密。