AI alignment(人工智慧對齊)是一個研究領域,目標是確保人工智慧系統的行為和結果符合人類的意圖、價值觀和目標。換句話說,就是讓 AI 的行動方向與人類設計者或使用者真正想要達成的目標保持一致,避免 AI 產生不符合預期甚至危害性的行為。
為什麼 AI alignment 重要?
• 隨著 AI 技術能力提升,特別是大型語言模型和自主系統越來越強大,若 AI 目標和人類目標不一致,可能導致嚴重風險。• AI 可能誤解或曲解指令,追求錯誤或不道德的「代理目標」。
• 對齊研究幫助開發出可控、安全、可靠且符合倫理的 AI。
AI alignment 包含的問題
• 外部對齊(Outer alignment):確保 AI 的明確目標(如程式碼或損失函數)反映人類真正的意圖。
• 內部對齊(Inner alignment):確保 AI 學到的策略和目標與設計目標一致,不會自行產生偏差策略。
• 可解釋性和可控性:AI 決策過程透明且便於人類監督和修正。
通常的技術方法
• 利用指令微調(instruction tuning)和強化學習從人類反饋中學習(RLHF)來改善模型回應。
• 設計獎勵模型反映人類價值尺度,避免出現「獎勵黑客行為」。
• 使用對抗測試和審查(red-teaming)來檢測和修正偏差和風險。
簡單比喻
AI alignment 就像是訓練一個寵物,確保它的行為符合主人的期待,而不是偏離主人的意圖做出意想不到的行為。
總結:
AI alignment 是確保 AI 系統能安全、穩定且可信,真正做到「幫助」人類而非帶來威脅的關鍵技術研究課題。