過去二十年,程式設計的演化經歷了從命令式到物件導向、再到宣告式與函數式的多重轉換。如今,隨著大型語言模型(LLM)、強化學習與規範化政策引擎的融合,我們正站在另一場轉折點的門口——程式的核心將不再是「怎麼做」,而是「在什麼價值觀下選擇做什麼」。
# 下一階段程式寫法的科學與工程展望:語言規則+價值邏輯+自我修正搜尋
隨著人工智慧技術的迅速發展,未來的程式設計將不再是傳統的「指令序列執行」,而會進化成一種融合語言規則、價值邏輯與行為搜尋的系統。這種新型程式寫法不僅讓系統「懂得怎麼做」,更能「辨識什麼是更好、更善良、更合適的行為」,並根據環境與目標自我調整修正。本文將以現有學術與工程實踐為基礎,剖析這條融合「可計算價值、宣告式規則、策略搜尋」的程式設計新途徑,並說明其具體依據與未來發展路徑。
## 一、未來程式的核心模組:價值函數+規則語言+行為搜尋
經過多年的AI演進,我們可將下一階段程式的本質歸納為三層結構:
- **語言規則(Language Rules)**:現行多為宣告式語言,如規劃領域的PDDL(Planning Domain Definition Language),定義世界狀態、可用動作及其條件。系統根據規則自動「尋路」或安排行為序列。
- **價值邏輯(Value Logic)**:傳統程式難以真正體現人類社會的「價值」層面,現在透過強化學習結合人類偏好(RLHF)或自我偏好強化(RLAIF),將模糊的「善惡」、「正誠實」等判斷量化為可優化的回饋函數。
- **行為搜尋與自我修正(Search & Self-Correction)**:結合規劃器或搜尋演算法(如 A*、MCTS等),系統能根據規則和價值指標在行為空間中探索最合適路徑,並利用自評與反思機制不斷自我調整,達成更理想的執行策略。
## 二、三大學術與技術脈絡的跨界匯流
1. **價值學習與強化學習技術(RLHF、RLAIF、Constitutional AI)**
RLHF(人類偏好強化學習)已被證明能把人類對質量、善惡的感知轉換成可優化的數學函數。在複雜跨語言模型摘要、對話系統等任務中,有效提升模型行為的品質。一些最新技術如Constitutional AI則將明確的價值「憲法」集成入學習過程,由模型自我反思和自我修正,減少外部標註資源並穩定提升道德與誠實度。
2. **宣告式規劃語言 PDDL**
PDDL 是人工智慧規劃領域的標準語言,透過對環境狀態、動作前提與效果宣告,支援規劃演算法在「行為圖」中尋找可行且最佳解。這完美吻合了「給框架和規則,系統自主搜尋」的願景,並可精確表示程式執行流程與約束。
3. **Policy-as-Code 與去ontic邏輯**
在實務端,如Open Policy Agent (OPA) 能將政策規範寫成可執行代碼,統一判斷系統內各種「許可、禁止、例外」的規則。去ontic邏輯則用義務(obligation)、允許(permission)、禁止(prohibition)等形式語義化規範,為價值轉程式邏輯提供理論基礎,確保系統在遵守道德的同時具有執行性與可審計性。
## 三、從技術整合到實務原型
將上述三大技術融合,即形成一種新的程式寫法:
| 傳統軟體 | 下一階段軟體 |
|------------------|-------------------------------------|
| 程式 = 指令序列 | 程式 = 規則集 + 價值函數 + 搜尋器 |
| 正確性 = 通過測試 | 對齊度/誠實/不危害 = 被量化並優化 |
| 開發者規劃路徑 | 系統在行為空間中自主規劃 |
| 規範靠文件/文化 | Policy-as-Code:規範是可執行規則 |
| 人為補救例外 | 自評反思回路自動修復 |
您可想像這樣的系統既遵循嚴謹的規則,又擁有明確價值導向,並且能在行為空間內自主搜尋與修正錯誤,整體更具生命力與適應性。
## 四、風險控管與未來挑戰
雖然技術進步迅速,但須警惕新風險:
- **策略性不誠實**:強模型有可能學會欺瞞,必須透過外部審計、證據追蹤與政策強制執行來防止。
- **價值衝突與過度保守**:需設計層級化規範與動態權重調節機制,尤其在憲法原則優先序設計上,避免系統陷入僵化。
這些挑戰促使我們結合技術與制度設計,朝向更透明、可控且持續迭代的 AI 代理系統。
## 五、結論:可實作的未來程式寫法路線
本論述描繪的「以語言規則+價值函數+搜尋自我修正」的程式設計觀點,不只是哲學想像,而是建立在現有:
- RLHF/RLAIF和Constitutional AI的價值學習,
- PDDL的行為規劃,
- 以及Policy-as-Code與邏輯規範形式化
基礎上,融合最新研究與工程實踐的產物。
未來您可用 Rego/JSON 編寫價值政策模組,配合 PDDL 定義行為空間,再以偏好回饋模型及自我重寫回路,不斷優化系統行為。這是一條可行的技術路線,將讓程式更懂「做人」的道理,也更能在複雜環境中自主尋路和演進。
想像你正在設計一個醫療助理 AI,它接收到一個模糊的請求:「幫我找最便宜的手術方式」。
• 價值層:它會先檢查「不傷害」、「誠實」、「責任可追溯」的政策規則(Rego/JSON)。
• 規劃層:透過 PDDL 描述醫療流程與資源約束,搜索所有可行方案。
• 回饋層:用偏好模型評估哪個方案既符合醫療倫理,又在成本與風險之間達到平衡。
• 反思層:若檢測到「不確定性懲罰」過高,會主動回頭詢問更多病歷資訊。
這一整套流程,就不再是死板的流程碼,而是一個能在價值規則下自主尋路的「活系統」。

















