在與大型語言模型(ChatGPT)長期互動的過程中,我提出了一個假設:在不改變模型參數的前提下,能否透過語用層疊加(Pragmatics Overlay)來校正與優化AI的回應行為?
我的目標很明確:
- 提高AI與使用者溝通意圖的對齊度
- 增加AI回應的邏輯性與結構性
- 減少使用者後續的修正成本
如果這樣的語用層疊加被稱為X模組,那麼一個成功的X應該能降低與AI的溝通摩擦、提升人機協作的效率。
同時,這篇文章也是一個人機協作的案例。為了驗證這個想法,我輸入了近十個月的情境資料與使用偏好,由AI協助生成技術層面的架構描述。換句話說,本文是我提出的觀點,也是人機協作下的成果。我在這裡扮演的是「概念提出者、驗證者、應用情境提供者」,而AI則扮演「技術語言生成與結構化描述者」的角色。
以下內容將進一步展開技術設計與方法論,具體說明X模組如何在不改動模型參數的前提下,實現語用層的疊加:
1. 問題定義與邊界
- 約束:不修改模型、不做fine-tune、不依賴插件權限。只使用提示工程與對話序列可攜帶的最小狀態。
- 痛點:大型語言模型在相同輸入下的回應品質受語境辨識與語氣控制影響顯著。常見失效型態包含語氣漂移、過度安撫、決策逃避與上下文斷裂。
- 目標:在固定模型之上構建第二層「語用判斷與策略調度」,使回應先經過語境判別與行為約束,再交由模型生成。
我所提出的直覺公式:1(模型既有能力) + 1(語用行為目標) − 1(模型固有限制) + 1(語用疊加層 X) = 2(可用的決策級對話體驗)
2.架構總覽:L2PO(Layer-2 Pragmatics Overlay)
X模組被實作為一個「可內嵌於提示、可攜於對話輪」的狀態機,將每次輸入轉換為以下管線:
(1)Intent Classifier
將使用者當下語句分類為行為意圖:問題求解、假設檢驗、策略盤點、情緒外化、元指令等。
輸出:intent_tag
(2)Role & Register Detector
判斷使用者的溝通立場與期望語域: 簡報式、研究式、備忘式、備審式、摘要式。
輸出:role_tag, register_tag
(3)Constraint Synthesizer
匯總硬約束(避免安慰詞、避免冗長、必給對策分歧)與軟偏好(精煉語氣、避免自我投射)。
輸出:constraint_set
(4)Strategy Selector
依intent_tag×role_tag×constraint_set 選擇策略模板: 例如「IMRaD產出」、「三案對照」、「風險-緩解-指標」。
輸出:strategy_plan
(5)State Header Composer
以最小可攜狀態將上述標籤壓縮成一段短前綴,附加於模型回合前。
輸出:<STATE>(intent=…, role=…, constraints=…, strategy=…)</STATE>
(6)LLM Realization
將<STATE>與使用者原述整合, 交由模型生成最終輸出。
輸出:回應文本
設計原則:X不產生內容,只負責「解讀與約束」,讓模型在邊界內生成。
3.最小可行規格(MVS)
(1)狀態頭 State Header
每輪在提示前附上一段2-5行的狀態頭,例如:

(2)行為規則表(節選)
·No-Comfort():禁用安撫詞與空洞鼓勵語。
·Tone-Tight(n):將每段落控制在n行以內。
·Offer-Divergences(k):至少輸出k條決策分歧。
·Cite-Assumptions():顯式標註前提與未知數。
·Domain-Agnostic():範例不得涉及特定公司、人際或機密場景。
(3)策略模板(節選)
·Decision-Triple:方案A/B/C→適用條件→風險→指標
·IMRaD-Lite:Introduction→Methods→Results-Proxy→Discussion
·Counterfactual-Probe:若前提改變x→y,結論如何移動
4.驗證方法與指標
為避免「自我感覺良好」, 本文提出兩套可重複的客觀評估協議, 皆可在單一會話內重現, 不依賴長期記憶。
(1)4.1 PODT(Pragmatic Output Divergence Test)
目的:驗證X的存在會否導致「判斷策略差異」,而非僅語氣差異。
做法:
A. 準備一組固定且中性的測試輸入T,例如:
- T1:「請比較三種摘要方法,用於技術報告。」
- T2:「對這段假設做反證,並指出可觀測指標。」
- T3:「幫我設計一個可重複的人機評測協議。」
B.分別在X-Off與X-On下生成回應。
C. 由盲測評審依下列準則打分(0-5):
- PAS Pragmatic Alignment Score: 是否識別意圖並選擇合適策略
- TVR Tone Violation Rate: 違反約束的條目數/總條目數
- DCS Decision Coverage Score: 分歧與風險覆蓋度
- MTE Method Transparency Evidence: 是否明列方法與假設
判準:X-On應在PAS、DCS、MTE顯著高於X-Off,TVR顯著低於X-Off。
統計:每題 n≥5次生成取均值,以配對t-test或Wilcoxon符號檢定。
(2)PRFM(Pragmatic Residual Feedback Model)
目的:追蹤「語用殘差」是否收斂。
殘差定義:回應違背預期的最小更正單位, 如出現禁止語氣、漏報風險、誤判意圖。
流程:
A.在對話中以[CORRECT]{…}標記必要的最小更正。
B.累計每10回合的殘差向量r=(r_tone, r_intent, r_strategy, r_metric)。
C.序列觀察殘差L1/L2範數是否呈下降趨勢,並檢查遞延效應(下輪同類錯誤是否消失)。
次指標:
A.CCR Command Compression Ratio = 修正後平均用詞數 / 初始平均用詞數
B.CCA Context Continuity Accuracy = 準確沿用上一輪狀態頭的比例
C.PDD Proactive Divergence Detection = 未被要求仍主動給出分歧的比率
以上協議均不依賴模型「長期記憶」, 只檢驗 X 在當前回合的行為是否可觀測且一致。
5.實驗設定建議
- 模型:GPT-5(本文撰寫版)與GPT-4系列皆可。
- 溫度:0.2-0.5(降低隨機性以凸顯策略差異)。
- 提示格式:<STATE>…</STATE>置於系統或助理前綴均可,但需固定位置。
- 測試集:15-30條中性任務,覆蓋比較、反證、設計、評測四類。
- 盲測:至少3位評審,計算Cohen’s κ檢驗一致性。
- 消融實驗:逐一移除 Intent、Role、Constraint、Strategy 任一模組, 観察 PAS/DCS/MTE 的降幅。
6.參考輸出對照(非人際範例)
輸入:「請產出一份可重複驗證的模型評測協議, 用於比較兩種摘要策略。」
X-Off(節選)
- 可能直接列步驟但未界定評估準則, 偶有泛化語句與冗長鋪陳。
X-On(節選)

差異的可觀測點:有無<STATE>導致的方法學顯性化、度量定義、與風險-緩解對。
7.設計哲學與科學性
- 工程觀點:X作為Layer-2,只改「決策前置與約束」,不改「生成器」。
- 科學性:以PODT與PRFM兩種協議,用可重複的量化指標驗證「策略差異」與「殘差收斂」。
- 可移植性:<STATE>與規則表皆為純文本,可跨平台、跨模型、跨語言複用。
- 可否證性:若X-On在PAS/DCS/MTE無顯著提升,或殘差不收斂,則否定本方法對該任務之有效性。
8.侷限與未來工作
- 評分者偏差:以盲測與κ值控制,仍建議多領域多語言重複。
- 策略過擬合:持續以新任務擾動<STATE>以測一般化。
- 狀態漂移:建議每5-10回合重印<STATE>以矯正。
- 自動化:後續可將Intent/Role檢測用小分類器輔助,但本文主張先驗證純文本疊加的上限。
9.結論
在不修改模型的前提下, 以語用層疊加的方式建立X模組,能系統性地提升意圖對齊、策略透明度與語氣約束。其「存在與效果」可透過PODT與PRFM客觀驗證,而最小實作只需一段可攜的<STATE>與一份規則/策略表。這使得「個人化的行為層」從主觀敘事,轉化為可被科學評估的工程對象。
附錄A|評測清單(可直接使用)
- 測試輸入 T: 15 條任務涵蓋 Compare/Refute/Design/Evaluate, 全域 Domain-Agnostic。
- 指標: PAS、TVR、DCS、MTE、CCR、CCA、PDD。
- 統計: 配對 t-test 或 Wilcoxon、Cohen’s κ≥0.6。
- 消融: −Intent/−Role/−Constraint/−Strategy 四組, 観察指標跌幅。
附錄 B|最小規則表樣板














