大型語言模型

含有「大型語言模型」共 44 篇內容
全部內容
發佈日期由新至舊
本文將帶你快速了解如何使用DeepSeek R1 + 類似ChatGPT的介面可以與大型語言模型互動 前言 之前寫過一篇 超簡單! 一文理解如何使用私有大型語言模型LLM - Ollama+Open WebUI篇 這篇將教你如何使最近很紅的DeepSeek R1模型,讓我們來一探究竟! 1
Thumbnail
DeepSeek降低AI運算需求,短期可能影響高階GPU銷售,但長期將因應用普及和市場擴張而刺激GPU市場增長。
Thumbnail
人工智慧領域正在迅速發展,而其中最令人興奮的應用之一是生成式應用。在這個應用領域中,DeepSeek R1 是一個尖端的語言模型,專門設計用於協助開發者撰寫、最佳化和理解程式碼。透過運用其他大型語言模型 (LLM)的力量,DeepSeek 公司發展了一個新版的語言模型。
研究指出,若在每次迭代中缺乏足量且新鮮的真實資料,生成模型的品質與多樣性都會逐漸退化,最終將陷入所謂的模型自嗜的狀態。
Thumbnail
數據的同質化確實是需要注意的,大數據抓取中庸最可能的職,而少掉了個性。久了自然所有答案就成為都一樣的情況。
付費限定
上回我們對AI打敗了神經科學家嘖嘖稱奇,這回AI卻在博士級的歷史考試中被當了? 難道說,AI的“智慧”有“特定領域限定”? 2025年1月21日維也納複雜性科學中心(Complexity Science Hub,CSH)發布了一則新聞: 「ChatGPT 能通過博士級歷史考試嗎?」副標題回答說。。。
Thumbnail
因為AI擅長胡說八道,科學或許比較有邏輯脈絡,人文就比較難說,更何況資料本身可能就有"人"的偏差
Anthropic 研究揭示大型語言模型(LLM)在安全防護上的脆弱性,簡單提示詞變更即可繞過限制。研究呼籲加強 AI 安全設計,並提出對抗訓練等解決方案,以應對未來挑戰。
付費限定
倫敦大學學院(UCL)心理學與語言科學研究人員,2024年11月27日發表在《自然人類行為》的研究顯示,大型語言模型在預測神經科學結果方面超越了人類專家。
Thumbnail
Ai最近出現一個詞:幻覺 就是人工智慧開始“捏造”自己發明的詞語或狀態 我想這是Ai反被聰明誤的現象 值得注意。
Keras創始人François Chollet近日宣布離開Google,結束了在該公司超過9年的職業生涯。儘管離開,Chollet將繼續支持Keras的發展,並參與JAX、TensorFlow和PyTorch等開源框架的工作。Chollet的離職引發了業界對TensorFlow未來發展的擔憂。
OpenAI計劃於12月推出新一代大型語言模型「Orion」,但實測顯示其性能提升有限,與預期的重大進步有所差距。Orion的訓練數據結構主要來自GPT-4數據和合成資料,並採用新技術「測試時計算」來增強推理能力。然而,由於高質量文本數據短缺和合成數據的依賴,Orion在某些任務上表現平平。
付費限定
摘要 (Abstract) 隨著生成式AI推動對高效能運算前所未有的需求,數據中心產業正經歷巨大變革。Nvidia Blackwell GPU的出現,以其高達130kW的機架功率密度,確立了液冷技術的標準地位,未採用液冷的數據中心將在AI競賽中落後。這也導致了數據中心設計的重大轉變,例如Meta拆
Thumbnail