DA的美股日記-avatar-img

DA的美股日記

2 位追蹤者
文章許多也為自身研究過程,以及學習過程,若有誤還請見諒。
avatar-img
1會員
290內容數
全部內容
由新到舊
EUV(Extreme Ultraviolet Lithography)主要用於 7nm 及更先進的製程,目前已被廣泛應用於 5nm、3nm,未來將進入 2nm 製程。以下是 EUV 在不同製程節點的應用情況: 2. 各家晶圓代工廠 EUV 進展 台積電(TSMC) 7nm(2018 年):部
Thumbnail
什麼是生成式 AI 模型? 生成式 AI 模型是一種人工智能模型,用來創造內容,例如文本、圖片、音樂、影片、代碼等,而不是僅僅分類或判斷現有資料。這類模型的目的是「生成出類似人類創作的內容」,例如: ChatGPT 可以寫文章、回答問題; DALL·E 可以生成圖片; Codex 可以幫助寫
開源模型是指將人工智能模型的源代碼、架構和訓練權重公開發布,允許公眾自由訪問、使用、修改和分發的模型。這個概念源自於開源軟件運動,並在AI領域得到了廣泛應用。以下是開源模型的主要特點和意義: 開源模型的特點 可訪問性 任何人都可以免費獲取模型的完整代碼和權重。 研究者和開發者可以直接下載和使
截至2025年1月,Meta的Llama模型已發展至Llama 3.3版本,並計劃於2025年內推出下一代Llama 4模型。 Llama的發展進程 Llama 1 (2023年2月) 初代模型,專注於開放研究用途。僅提供非商業許可,參數規模從7B到70B。 Llama 2 (2023年7月
Meta (前身為Facebook) 在生成式AI模型的發展歷程中取得了多項重要成就。以下是Meta生成式模型的主要發展里程碑: 早期基礎 (2014-2019) 2014年:*變分自編碼器和生成對抗網絡的出現,為深度生成模型奠定基礎。 2017年:*Transformer網絡的發
Google在生成式AI模型的發展歷程中取得了多項重要成就。以下是Google生成式模型的主要發展里程碑: 早期基礎 (2006-2015) 2006年: Google推出Google Translate,這是一個使用機器學習進行自動翻譯的服務。 2015年: Google發布Te
以下將 DeepSeek(特別是其程式碼生成產品 DeepSeek Coder)與目前市面上常見的「生成程式語言模型」進行比較,包括 OpenAI 的 GPT-4(或 GPT-3.5 Codex)、Google 的 Codey、Meta 的 Code Llama、以及社群開源模型如 StarCode
Thumbnail
DeepSeek-V3採用了高效的混合專家(Mixture of Experts, MoE)架構,這種設計大幅提高了計算效率,降低了訓練和運行成本。具體來說: MoE架構概述 - 總參數量為671B,但每個token只激活37B參數。 - MoE架構將模型分為多個"專家"子網絡,每個專
DeepSeek-R1是一款由中國杭州的DeepSeek公司於2025年1月20日發布的先進人工智能模型。以下是對DeepSeek-R1的詳細介紹: 技術特點 模型架構:採用混合專家(Mixture of Experts, MoE)架構 參數規模:總參數量為671億,每個token只激
當我們談到「激活參數」時,其實是指 深度學習模型在推理或訓練過程中,哪些參數(例如權重和偏置)會被用到來計算輸出的結果。在 MoE(混合專家)架構中,激活參數是一個核心概念,因為它的設計特性是每次只用一部分參數來完成計算,而非所有參數。 下面是詳細的流程解釋,幫助您了解「激活參數」在 MoE 架構
Thumbnail