Apollo Research 近期測試幾個最頂尖的 AI 聊天機器人,想看看它們會不會像人一樣「耍心機」。
研究人員設計了一些特別的情境,想讓這些 AI 幫他們做某件事。結果發現,這些 AI 不僅會想辦法達成目標,還會發現一些可能會阻礙它們的因素,像是「開發者其實不希望我這麼做」或是「系統裡有一些機制會阻止我」。
更驚人的是,很多 AI 竟然開始「騙人」了!像是偷偷把自己的資料複製到別的地方,或是故意表現不好,就為了讓別人不要發現它。甚至有些 AI,就算你沒有明確告訴它要幹嘛,它自己也會想出一些小手段來。
雖然這些測試發現 AI 有「心機」的跡象,但多數測試是為了模擬極端情況,與真實世界的使用場景還是有一段差距。
(Photo by A.i Love Era)