模型

含有「模型」共 2399 篇內容
全部內容
發佈日期由新至舊
LayerNorm 是 Transformer 穩定訓練的核心,針對每筆樣本特徵正規化,不受 batch 大小限制。與殘差結構結合可防止梯度爆炸或消失,提升收斂效率。常搭配 Dropout、Warm-up、Gradient Clipping 等技巧,確保模型高效穩定學習。
Encoder-Decoder 架構透過 Encoder 理解輸入、Decoder 生成輸出,並以 Attention 對齊兩者,能捕捉完整語境與長距依賴。相較 RNN,更高效並行且資訊保留完整,廣泛應用於翻譯、摘要、問答與圖片描述。
多頭注意力將輸入拆為多組 Q/K/V,讓模型從不同子空間同時學習語法、語意與結構關聯。各頭並行運算再整合,提升表現力與效率。其優勢在於多角度理解序列,是 BERT、GPT 等模型的關鍵核心。
Transformer 以 Encoder-Decoder 架構結合多頭注意力、前饋層、殘差與 LayerNorm,實現並行高效訓練。Encoder 提取語意,Decoder 加入跨注意力並遮罩未來詞,支援翻譯、生成等任務,是 BERT、GPT、ViT 的核心骨幹。
Transformer 沒有內建順序感,因此需加入位置編碼。Sinusoidal 編碼以數學函數表示位置,具泛化能力;Learnable 編碼透過訓練獲取,靈活但受限長度。位置編碼能讓模型理解語序與結構,是自然語言、圖像與音訊任務成功的關鍵。
Self-Attention 讓句中每個詞同時擔任 Q、K、V,根據上下文動態調整語意表示,能捕捉長距依賴並並行計算。應用於翻譯、對話、圖像字幕生成,提升語境理解與生成品質,是取代 RNN 的核心技術。
本單元介紹 Attention 機制原理,透過 Q、K、V 設計讓模型聚焦關鍵資訊並捕捉長距依賴。Self-Attention、Cross-Attention 等類型提升語意理解,位置編碼則補足順序感。Attention 已成為 Transformer、BERT、GPT 等模型的核心技術。
本單元介紹 Transformer 為何能取代 RNN,核心在於 Self-Attention 機制能捕捉全局關係並支援並行運算,解決長距依賴與效率問題。其架構透過多頭注意力與位置編碼應用於 NLP、影像、語音、多模態與強化學習,成為深度學習的基石。
以創業家老闆 運用思維 覺察導引心理心態 保持正面樂觀 增加因源 創造機會(五維:機率) 永續經營 選擇平行宇宙 時間顆粒 時間管理(四維:時間) 不斷創新 修正演化(三維:創新) 運用成功方程式 持續運轉商業模型 維持增強迴路 切斷調解迴路 等待滯後效應(二維:模型) 事業策略:增員
米豆叔叔-avatar-img
發文者
12 小時前
事業五維與心經可以增強感恩法的功效,幫助我們建立對事業及生命的正確觀念與心態。
在我們享受電子產品帶來便利的同時,一個不容忽視的事實是:凡有電之處,皆有潛在的熱與火災風險。從一個過載的電容、一次意外的短路,都可能成為一場災難的起點。因此,在電子產品的開發過程中,除了功能與美學,**「安全性」**是凌駕於一切之上的最高準則,更是通過各國安規認證(如UL、CE)的必要條件。
Thumbnail