CodeSignal 的 AI 基準報告比較了多種 AI 模型的軟體工程技能,發現某些模型如 o1-preview 在某些指標上表現卓越,但頂尖人類工程師在綜合表現上仍然超越 AI 模型。
AI 模型能有效解決部分編碼任務,但在複雜或不可預測的問題上人類的直覺與創造力更具優勢。藉由結合 AI 和人類能力,公司可以在難以解決的工程挑戰中實現更高效的性能。CodeSignal 提供的 AI 輔助編碼框架和測評工具,旨在幫助企業在開發工作流程中更好地整合 AI,並促進人類與 AI 的合作。
在當今程式設計領域,AI技術的迅速進步引發了軟體工程師角色和能力的重新評估。根據 CodeSignal 的最新報告,AI模組在編碼和問題解決能力上,已經逐漸超越了一般的軟體工程師,尤其是如 OpenAI 的o1-preview及o1-mini等先進模型。這些AI能有效解決實際問題,並在大多數情況下表現穩定1。模型的排名如下:
這顯示出,普通的軟體工程師已無法與大多數當前最流行的AI模型相比,尤其是在編寫複雜程式碼和穩健性方面。
這份報告的評估方法並非僅僅測試工程師的理論知識,而是使用目前科技和金融行業中的面試問題進行實際測試,共涉及159種題目,主要測試的都是包含40至60行程式碼的問題3。
報告指出,雖然大部分AI模型的表現超越了一般預篩選的軟體工程師,但最頂尖的人類候選者在各項指標上仍然持續優於所有AI模型。舉例來說,排名第一的o1-preview模型未能完全解決25%人類候選者能夠成功解決的問題,突顯了人類在一些複雜性和不確定性較高的情境中的優勢。
值得注意的是,儘管AI模型正在逐步強大,但人類工程師仍在某些獨特的問題解決領域中展現出優勢,特別是那些涉及創造力、直覺和道德判斷的複雜任務。這表明未來的工作場景將可能是人類和AI之間的合作,而非單方的取代。因此,軟體工程師專業的核心價值不再僅僅是在寫代碼上,而是如何有效地與AI共同合作,及其在解決問題時能夠提供額外的洞見和應對挑戰的能力。
這些觀察強調了在不斷變化的技術界中,保持學習和適應能力的重要性,因為未來仍會出現不少新挑戰與機遇。
參考出處
https://codesignal.com/blog/engineering/ai-coding-benchmark-with-human-comparison/