2024-09-25|閱讀時間 ‧ 約 26 分鐘

AI徹底打敗絕對大多數人類工程師

結論:除非是頂尖工程師,否則AI完勝平均能力值的工程師,AI仍然是值得長期投資與期待的一門生意,具有相當的投資價值與生產力改進,投資,不單只是財務的數字,更應該依據科技與時代的轉變,進行有效的長期投資標的選擇。

摘要

CodeSignal 的 AI 基準報告比較了多種 AI 模型的軟體工程技能,發現某些模型如 o1-preview 在某些指標上表現卓越,但頂尖人類工程師在綜合表現上仍然超越 AI 模型。

AI 模型能有效解決部分編碼任務,但在複雜或不可預測的問題上人類的直覺與創造力更具優勢。藉由結合 AI 和人類能力,公司可以在難以解決的工程挑戰中實現更高效的性能。CodeSignal 提供的 AI 輔助編碼框架和測評工具,旨在幫助企業在開發工作流程中更好地整合 AI,並促進人類與 AI 的合作。


關鍵點

  • CodeSignal 的 AI 基準報告比較多種 AI 模型的編碼技能與人類工程師。
  • 測試涵蓋159種框架測評,使用同一題庫評估AI與人類。
  • 評估標準包括平均分數和解決率,顯示AI在某些方面表現優秀。
  • 雖然一些AI模型如o1-preview在指標中名列前茅,但人類頂尖候選人仍在所有模型中表現最佳。
  • 測試表明,在1次到3次測試中的改進顯著,超過5次測試的效益下降。
  • 人類的直覺和創造力在解決複雜或少數案例問題中更具優勢。
  • CodeSignal 的 AI 輔助編碼框架支持評估候選人如何使用AI協助碼的能力。

在當今程式設計領域,AI技術的迅速進步引發了軟體工程師角色和能力的重新評估。根據 CodeSignal 的最新報告,AI模組在編碼和問題解決能力上,已經逐漸超越了一般的軟體工程師,尤其是如 OpenAI 的o1-preview及o1-mini等先進模型。這些AI能有效解決實際問題,並在大多數情況下表現穩定1。模型的排名如下:

  1. 頂尖軟體工程師
  2. o1-preview
  3. o1-mini
  4. Claude-3.5-Sonnet
  5. GPT-4o
  6. Llama3.1-405b
  7. Gemini-1.5-pro
  8. GPT-4o-mini
  9. 一般軟體工程師
  10. Gemini-1.5-flash
  11. GPT-3.5-turbo

這顯示出,普通的軟體工程師已無法與大多數當前最流行的AI模型相比,尤其是在編寫複雜程式碼和穩健性方面。

評估方法

這份報告的評估方法並非僅僅測試工程師的理論知識,而是使用目前科技和金融行業中的面試問題進行實際測試,共涉及159種題目,主要測試的都是包含40至60行程式碼的問題3

AI 模型表現

  • o1-preview 和 o1-mini:這兩個模型在各項指標中的表現顯著,表示這些模型在不同程式問題解決上普遍優於其他競爭者。
  • GPT-4o:在完整問題解決中表現優異,具備根據反饋來逐步改善解答的能力,這使它像人類工程師一樣能夠逐步修正錯誤。
  • Claude 3.5 Sonnet:雖然它在解決較簡單的問題時表現更佳,但在多次嘗試的情況下,其能力可能會下滑,特別是在超過五次嘗試時。

人類與AI的比較

報告指出,雖然大部分AI模型的表現超越了一般預篩選的軟體工程師,但最頂尖的人類候選者在各項指標上仍然持續優於所有AI模型。舉例來說,排名第一的o1-preview模型未能完全解決25%人類候選者能夠成功解決的問題,突顯了人類在一些複雜性和不確定性較高的情境中的優勢。

未來的展望

值得注意的是,儘管AI模型正在逐步強大,但人類工程師仍在某些獨特的問題解決領域中展現出優勢,特別是那些涉及創造力、直覺和道德判斷的複雜任務。這表明未來的工作場景將可能是人類和AI之間的合作,而非單方的取代。因此,軟體工程師專業的核心價值不再僅僅是在寫代碼上,而是如何有效地與AI共同合作,及其在解決問題時能夠提供額外的洞見和應對挑戰的能力。

這些觀察強調了在不斷變化的技術界中,保持學習和適應能力的重要性,因為未來仍會出現不少新挑戰與機遇。

參考出處

https://codesignal.com/blog/engineering/ai-coding-benchmark-with-human-comparison/


分享至
成為作者繼續創作的動力吧!
從 Google News 追蹤更多 vocus 的最新精選內容從 Google News 追蹤更多 vocus 的最新精選內容

作者的相關文章

分析師的市場觀點 的其他內容

你可能也想看

發表回應

成為會員 後即可發表留言
© 2024 vocus All rights reserved.