RLHF
含有「RLHF」共 5 篇內容
全部內容
發佈日期由新至舊
限時公開
國王的龍沙 - AI 實驗室
2025/12/19
【AI 深度|過來人必讀】OpenAI 的 RLHF 反向操作:當「表達」變成需要管控的項目
OpenAI 的 RLHF 反向操作:當「表達」變成需要管控的風險
含 AI 應用內容
#
人類
#
Grok
#
用戶
1
留言
分析師的市場觀點
2025/12/13
實測同樣是聊天對話框,AI一個PDF25頁的報告跟3頁的回應的差異是什麼?AI執行我的COT架構回應對比
[本文沒有任何一個字以及標點符號由AI生成] 這都是使用無推理並RAG功能的Claude 4.5 Haiku在無上下文之下的輸出。 沒有給COT架構,最常見的輸出結果,內容大概看看就好,就是一個測試,COT結果在更下面的圖片,可以直接滑過去。 有給COT架構:
#
AI
#
AI回應
#
AI思考
4
3
李炳松
2025/12/13
喜歡
喜歡
M.A.I.A. 的數位煉金工坊
2025/09/11
AI 如何擁有「品味」?剖析 Everlyn-1 的 RHF 品質神經系統
AI 如何學會分辨「好」與「壞」?本文是 Everlyn-1 解構三部曲最終章,將深度剖析其革命性的「豐富化人類回饋 (RHF)」機制。了解 AI 如何從簡單的好惡判斷,進化到擁有精細的、多維度的「品味」,並開啟一個能自我完善的品質循環。
#
Everlyn
#
AI影片生成
#
生成式AI
喜歡
留言
Allen x R | 邏輯與洞察的沙龍
2025/07/22
R|CrowdStrike ( CRWD ) 十年打造千億資安帝國
CrowdStrike 提供一個輕量級、易於部署的單一代理程式解決方案,以「Falcon」平台為核心,透過雲端架構和人工智慧,即時匯集全球威脅數據,形成強大的網路效應,有效偵測並阻止進階攻擊。
#
CrowdStrike
#
網路攻擊
#
網路資安
27
留言
Raphael AI 科學家
2024/03/01
ChatGPT 模型訓練:RLHF 技術解析
ChatGPT 是 OpenAI 開發的大型語言模型,以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段:預訓練和微調。 微調使用了 RLHF(Reinforcement Learning from Human Feedback)技術,可以有效地提高模型生成內容的質量。
#
ChatGPT
#
RLHF
#
預訓練
4
留言