DeepSeek-R1

DA的美股日記

更新於 2025/01/27發佈於 2025/01/27閱讀時間約 2 分鐘

投資理財內容聲明

文內如有投資理財相關經驗、知識、資訊等內容，皆為創作者個人分享行為。
有價證券、指數與衍生性商品之數據資料，僅供輔助說明之用，不代表創作者投資決策之推介及建議。
閱讀同時，請審慎思考自身條件及自我決策，並應有為決策負責之事前認知。
方格子希望您能從這些分享內容汲取投資養份，養成獨立思考的能力、判斷、行動，成就最適合您的投資理財模式。

DeepSeek-R1是一款由中國杭州的DeepSeek公司於2025年1月20日發布的先進人工智能模型。以下是對DeepSeek-R1的詳細介紹：

技術特點

模型架構：採用混合專家(Mixture of Experts, MoE)架構
參數規模：總參數量為671億，每個token只激活37億參數
上下文長度：支持高達128K tokens
訓練數據：使用14.8萬億tokens進行訓練
訓練成本：僅用約600萬美元的計算資源

性能表現

數學推理：在MATH-500基準測試中達到97.3%的成績，超過OpenAI的o1模型
編程能力：在Codeforces評級中達到2,029 Elo分，超過96.3%的人類參賽者
通用知識：在MMLU測試中達到90.8%的成績
長文本理解：在長上下文基準測試中大幅超越DeepSeek-V3

開源與許可

- 採用MIT許可證發布，允許免費商業使用和修改

- 完全開放權重，研究人員可以自由研究和構建模型

創新特性

純強化學習訓練：DeepSeek-R1-Zero版本完全通過大規模強化學習訓練，無需監督式微調
思維鏈推理：能夠將複雜問題分解為小步驟，並進行自我驗證
多語言支持：能夠處理多種語言，增強全球應用潛力

應用優勢

成本效益：運營成本僅為OpenAI o1模型的15%-50%
透明度：開源性質使其推理過程更加透明
靈活性：開發者可以自由修改和定制模型

影響與意義

DeepSeek-R1的出現不僅展示了中國在AI領域的創新能力，也為全球AI研究和應用帶來了新的可能性。它的高性能和低成本特性有望推動AI技術的民主化，使更多研究機構和企業能夠參與到先進AI的開發和應用中來。

1會員

283內容數

留言0

查看全部

發表第一個留言支持創作者！

你可能也想看

Google News 追蹤

MIA的宇宙

2025/01/09

國泰世華CUBE App 美的生活體驗，給予你最好的情緒。

現代社會跟以前不同了，人人都有一支手機，只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行，然而如今科技快速發展之下，金融App無聲無息地進到你生活中。但同樣的，每一家銀行都有自己的App時，我們又該如何選擇呢？(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB

#國泰世華 #CUBE卡 #金融

筱涵｜Hannah的沙龍

2025/01/02

【生活記事】AI人工智慧解籤｜慈母籤｜線上求籤｜科技與玄學

嘿，大家新年快樂~ 新年大家都在做什麼呢？跨年夜的我趕工製作某個外包設計案，在工作告一段落時趕上倒數。然後和兩個小孩過了一個忙亂的元旦。在深夜時刻，看到朋友傳來的解籤網站，興致勃勃熬夜體驗了一下，覺得非常好玩，或許有人玩過了，但還是想寫上來分享紀錄一下~

#互動設計 #文化體驗 #慈母籤