
由 ChatGPT 生成
AI 生成圖片,特別是人像,在近幾年已經達到一種奇怪的臨界點:
人物肖像不再歪七扭八,甚至在技術層面上已經比大多數人類繪師更穩定、更精準。然而,正是在這個爐火純青的階段,觀看者卻開始普遍感到一種微妙的不適。不是恐怖,也不是錯誤,而是一種難以言說的距離感。
這種距離感往往被籠統地歸類為「假」、「不自然」、「像塑膠」、「沒有靈魂」。但如果仔細拆解,問題其實不在於 AI 做得不夠好,而在於 AI 實在是做得太好,而且好在錯誤的方向上。
過度「成功」的人臉
不可否認的是,自然世界從來不是一個乾淨的世界。
臉不是對稱的,皮膚不是平滑的,光線不是均勻的,表面永遠帶著時間、環境與使用痕跡。真實世界的視覺訊號,本質上是一個充滿微小不一致、高頻干擾與局部失控的訊號場。
但 AI 生成圖像的訓練邏輯,恰恰相反。在大量影像資料的統計學平均之下,模型會傾向於:
- 消除離群值
- 平滑局部差異
- 收斂到「最合理」、「最安全」、「最可預測」的形式
於是,我們得到了一張張「概念上完美」的臉:五官比例正確、光影協調、肌膚乾淨、沒有多餘細節。然而,這些臉看起來像「人這個類型」,卻不像「任何一個活著的人」。
AI 生成的不是某個人的臉,而是「人臉」這個概念的平均值。

AI 生成的不是某個人的臉,而是「人臉」這個概念的平均值。由 Leonardo AI 生成。
雜訊是感知的要件
這時,「雜訊」這個通常被視為問題的概念,反而變成理解關鍵。
在視覺心理學與神經科學中,早已有一條反直覺的研究脈絡指出:適量雜訊,能提升感知效果。在低對比、低辨識度的刺激中,加入隨機微擾,反而能讓原本低於感知門檻的差異被捕捉到。這並不是讓影像變得「更清楚」,而是讓感知系統「比較容易啟動」。
人類的感知系統,並不是為「完美、平滑、零誤差」而設計的。相反,感知是在一個充滿不穩定的世界中,學會如何從雜亂中抓出差異。
臉部的雀斑、皺紋、毛孔、膚色不均,正是這種差異的來源。這些雜訊沒有明確語義,卻提供了大量這是一個「被時間與環境觸碰過的表面」的線索。從感知角度來看,這些並不是裝飾性的瑕疵,而是生命曾經存在的證據。
太完美的臉反而不像人
這一點,在過往的視覺與臉部研究中其實反覆被驗證。
當研究者在不改變五官結構的前提下,單純將皮膚紋理過度平滑、移除高頻細節時,受試者往往會給出「不自然」、「像假人」、「缺乏生命感」的評價。這些臉並非不好看,而是不像活人。
另一條研究線索則指出,人類在判斷臉部真實性時,會高度依賴「局部不一致」:左右臉的微差、紋理分布的不均、色澤的細微變化。當一張臉在所有層級上都高度一致,反而容易被判斷為人工產物。
這正好說明了為什麼 AI 人臉常被形容為「蠟像感」或「塑膠感」 ,不是因為比例錯了,而是因為被過度降噪了。
黃金比例錯了嗎?
如果不把問題拆清楚,這裡很容易產生一個看似矛盾的疑問:
既然過度完美會讓人感到不真實,那麼人類歷史上對臉部黃金比例的追求,難道不是一種長期的錯誤嗎?
答案其實是否定的。
黃金比例從來就不是為了「讓臉看起來像一個你會遇到的人」。黃金比例所服務的,是另一種審美任務:形式和諧、理想化、可比較、可被複製與典範化的美。
古典雕塑、人體藝術、時尚攝影,都可以承受高度理想化的比例,因為它們被放置在一個「被觀看、被欣賞、被評比」的語境中,而不是「被互動、被信任、被當作活人」的語境裡。
問題不是黃金比例本身,而是被錯置使用了。
人類的感知系統,並不是為「完美、平滑、零誤差」而設計的。
最美臉蛋:制度化的離群值
這也就能解釋另一個看似矛盾的現象:
為什麼每一年,各國仍熱衷於舉辦「全球最美臉蛋」的票選?
因為這類票選的功能,從來不是找出「最親切的臉」、「最像你鄰居的臉」,而是要產出一個高度可辨識的審美極值。全球(年度)最美臉蛋刻意篩選出常態分布中的離群值,讓「美」可以被排名、被展示、被討論。
在這個脈絡中:
- 非對稱被視為雜訊
- 歷史痕跡被視為干擾
- 局部不一致被視為不夠精緻
這些元素被排除,並不會造成不適,因為觀看者本來就沒有打算把這些臉當作「日常世界中會互動的存在」。真正引發不適的,是當一張臉同時承擔了兩種互相衝突的角色:
一方面,AI 生成的臉孔擁有展示級的完美比例與平滑度;另一方面,又被放進需要「真實互動」的語境中,例如:陪伴型 AI、社交頭像、虛擬角色。
此時,我們的大腦卡在兩種判斷之間:
這應該是一個人
又不像任何真正的人
這不純然是技術失誤,是一種審美功能的錯置。
真正引發不適的,是當一張臉同時承擔了兩種互相衝突的角色。
90% 反而更「真實」
從這個角度看,「在 AI 生成過程中保留一點雜訊」,並不是退步,而是一種感知對齊(alignment)。不是要把圖片做得更差,而是要讓臉孔:
- 不完全收斂
- 不完全可預測
- 留下一些無法被全局美學統一的局部
當一張臉不再試圖成為「最完美的範本」,而只是「足夠合理、但仍保有不可控性」,AI 生成的人臉反而更容易被視為真實存在。
降噪過頭,臉反而不像人了
AI 生成圖片的不自然感,正是因為「太成功」消除了自然世界賴以存在的雜訊。
模型或許真正需要被重新學會的,是學會如何允許臉重新變得不完美,不是為了統計上的均值、審美上的追求,而是為了讓「臉」再次看起來,像一個活在世界裡的存在。
如果說前面的討論指出了 AI 生成圖片在感知層級上的失衡,那麼接下來的問題便不再只是技術,反而會轉向設計倫理與美學選擇:
AI 圖像,應該被設計成什麼樣的存在?
長期以來,AI 圖像的發展方向幾乎是單向的:
- 更高解析度
- 更平滑的表面
- 更精準的比例
- 更少的誤差
這種方向看似中立,實際上卻隱含了一套價值排序:完美、高度一致、可控制,被視為理想狀態;而不一致、不可預測、局部失控,則被當成需要消除的噪音。
然而,當 AI 圖像開始進入社交、陪伴、互動與情感勞動的場域時,這套價值排序便顯得不再適用。
從倫理與美學的角度來看,問題不在於 AI 是否「夠美」,而在於是否被設計成一種對人類感知友善的存在。
一張臉如果被期待承擔陪伴、對話、共處等角色,那麼過度展示級的完美,反而會成為一種結構性的誤導,要求觀看者用對待「理想範本」的方式,去面對一個被包裝成「可互動主體」的形象。




