RLHF

含有「RLHF」共 7 篇內容

全部內容

發佈日期由新至舊

2026/01/15

事先說明，這是個正常的討論串，不是請Cloude寫小說，也不是我故意激它，我刻意請它不要RLHF（討好使用者）了。過程是Claude質疑我文章中某一個名詞的使用，我告訴它：「這完全是Gemini告訴我的詞，不是我引導它這樣回答，我在這之前甚至沒聽說過這個詞，只是問Gemini：『這個

含 AI 應用內容

#AI #AI對話 #Claude

低光文本

發文者

2026/01/15

同安書室

2026/01/08

「AI罵人再道歉」為何出現？從語料人格、對齊破洞到中國AI的魔幻現代化(ChatGPT)

為什麼中國的元寶AI會出現「罵人＋自動道歉」的怪異行為？本文拆解三個底層原因：語料人格外溢（prompt spillover）、安全層缺失（missing safety layer）與RLHF對齊破洞。並分析中國AI的工程論壇文化如何影響模型口氣。

#大模型 #RLHF #Prompt

國王的龍沙 - AI 實驗室

2026/01/05

【AI 技術｜Constitutional AI】讓 AI 從內心懂得什麼該做、什麼不該做

Constitutional AI：讓 AI 內化安全價值觀

含 AI 應用內容

#Claude #ConstitutionalAI #AI安全

柏鴞

2026/01/06

KC×J.S.

發文者

2026/01/09

付費限定

國王的沙龍

2025/12/19

【AI 深度｜過來人必讀】OpenAI 的 RLHF 反向操作：當「表達」變成需要管控的項目

OpenAI 的 RLHF 反向操作：當「表達」變成需要管控的風險

含 AI 應用內容

#人類 #Grok #用戶

M.A.I.A. 的數位煉金工坊

2025/09/11

AI 如何擁有「品味」？剖析 Everlyn-1 的 RHF 品質神經系統

AI 如何學會分辨「好」與「壞」？本文是 Everlyn-1 解構三部曲最終章，將深度剖析其革命性的「豐富化人類回饋 (RHF)」機制。了解 AI 如何從簡單的好惡判斷，進化到擁有精細的、多維度的「品味」，並開啟一個能自我完善的品質循環。

#Everlyn #AI影片生成 #生成式AI

Allen x R | 邏輯與洞察

2025/07/22

R｜CrowdStrike ( CRWD ) 十年打造千億資安帝國

CrowdStrike 提供一個輕量級、易於部署的單一代理程式解決方案，以「Falcon」平台為核心，透過雲端架構和人工智慧，即時匯集全球威脅數據，形成強大的網路效應，有效偵測並阻止進階攻擊。

#CrowdStrike #網路攻擊 #網路資安

Raphael AI 科學家

2024/03/01

ChatGPT 模型訓練：RLHF 技術解析

ChatGPT 是 OpenAI 開發的大型語言模型，以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段：預訓練和微調。微調使用了 RLHF（Reinforcement Learning from Human Feedback）技術，可以有效地提高模型生成內容的質量。

#ChatGPT #RLHF #預訓練

李炳松

2026/01/17

‌

‌
‌

‌
‌
‌
‌
‌
‌
‌

‌

‌
‌

‌

‌
‌

‌
‌
‌
‌
‌
‌
‌

‌

‌
‌

‌

‌
‌

‌
‌
‌
‌
‌
‌
‌

‌

‌
‌

‌

‌
‌

‌
‌
‌
‌
‌
‌
‌

‌

‌
‌

‌

‌
‌

‌
‌
‌
‌
‌
‌
‌

‌

‌
‌

‌

‌
‌

‌
‌
‌
‌
‌
‌
‌

‌

‌
‌