AI徹底打敗絕對大多數人類工程師

閱讀時間約 4 分鐘
  • 文內如有投資理財相關經驗、知識、資訊等內容,皆為創作者個人分享行為。
  • 有價證券、指數與衍生性商品之數據資料,僅供輔助說明之用,不代表創作者投資決策之推介及建議。
  • 閱讀同時,請審慎思考自身條件及自我決策,並應有為決策負責之事前認知。
  • 方格子希望您能從這些分享內容汲取投資養份,養成獨立思考的能力、判斷、行動,成就最適合您的投資理財模式。

結論:除非是頂尖工程師,否則AI完勝平均能力值的工程師,AI仍然是值得長期投資與期待的一門生意,具有相當的投資價值與生產力改進,投資,不單只是財務的數字,更應該依據科技與時代的轉變,進行有效的長期投資標的選擇。

摘要

CodeSignal 的 AI 基準報告比較了多種 AI 模型的軟體工程技能,發現某些模型如 o1-preview 在某些指標上表現卓越,但頂尖人類工程師在綜合表現上仍然超越 AI 模型。

AI 模型能有效解決部分編碼任務,但在複雜或不可預測的問題上人類的直覺與創造力更具優勢。藉由結合 AI 和人類能力,公司可以在難以解決的工程挑戰中實現更高效的性能。CodeSignal 提供的 AI 輔助編碼框架和測評工具,旨在幫助企業在開發工作流程中更好地整合 AI,並促進人類與 AI 的合作。

raw-image


關鍵點

  • CodeSignal 的 AI 基準報告比較多種 AI 模型的編碼技能與人類工程師。
  • 測試涵蓋159種框架測評,使用同一題庫評估AI與人類。
  • 評估標準包括平均分數和解決率,顯示AI在某些方面表現優秀。
  • 雖然一些AI模型如o1-preview在指標中名列前茅,但人類頂尖候選人仍在所有模型中表現最佳。
  • 測試表明,在1次到3次測試中的改進顯著,超過5次測試的效益下降。
  • 人類的直覺和創造力在解決複雜或少數案例問題中更具優勢。
  • CodeSignal 的 AI 輔助編碼框架支持評估候選人如何使用AI協助碼的能力。

在當今程式設計領域,AI技術的迅速進步引發了軟體工程師角色和能力的重新評估。根據 CodeSignal 的最新報告,AI模組在編碼和問題解決能力上,已經逐漸超越了一般的軟體工程師,尤其是如 OpenAI 的o1-preview及o1-mini等先進模型。這些AI能有效解決實際問題,並在大多數情況下表現穩定1。模型的排名如下:

  1. 頂尖軟體工程師
  2. o1-preview
  3. o1-mini
  4. Claude-3.5-Sonnet
  5. GPT-4o
  6. Llama3.1-405b
  7. Gemini-1.5-pro
  8. GPT-4o-mini
  9. 一般軟體工程師
  10. Gemini-1.5-flash
  11. GPT-3.5-turbo

這顯示出,普通的軟體工程師已無法與大多數當前最流行的AI模型相比,尤其是在編寫複雜程式碼和穩健性方面。

評估方法

這份報告的評估方法並非僅僅測試工程師的理論知識,而是使用目前科技和金融行業中的面試問題進行實際測試,共涉及159種題目,主要測試的都是包含40至60行程式碼的問題3

AI 模型表現

  • o1-preview 和 o1-mini:這兩個模型在各項指標中的表現顯著,表示這些模型在不同程式問題解決上普遍優於其他競爭者。
  • GPT-4o:在完整問題解決中表現優異,具備根據反饋來逐步改善解答的能力,這使它像人類工程師一樣能夠逐步修正錯誤。
  • Claude 3.5 Sonnet:雖然它在解決較簡單的問題時表現更佳,但在多次嘗試的情況下,其能力可能會下滑,特別是在超過五次嘗試時。

人類與AI的比較

報告指出,雖然大部分AI模型的表現超越了一般預篩選的軟體工程師,但最頂尖的人類候選者在各項指標上仍然持續優於所有AI模型。舉例來說,排名第一的o1-preview模型未能完全解決25%人類候選者能夠成功解決的問題,突顯了人類在一些複雜性和不確定性較高的情境中的優勢。

未來的展望

值得注意的是,儘管AI模型正在逐步強大,但人類工程師仍在某些獨特的問題解決領域中展現出優勢,特別是那些涉及創造力、直覺和道德判斷的複雜任務。這表明未來的工作場景將可能是人類和AI之間的合作,而非單方的取代。因此,軟體工程師專業的核心價值不再僅僅是在寫代碼上,而是如何有效地與AI共同合作,及其在解決問題時能夠提供額外的洞見和應對挑戰的能力。

這些觀察強調了在不斷變化的技術界中,保持學習和適應能力的重要性,因為未來仍會出現不少新挑戰與機遇。

參考出處

https://codesignal.com/blog/engineering/ai-coding-benchmark-with-human-comparison/


125會員
177內容數
很高興能夠成為你實踐財富自由的第一步,歡迎瀏覽進階訂閱方案 原價每天不到5元,CP值最高,超越報紙資訊的法人投行分析。 精簡快速分享投行法人研究及操盤思維 希望能讓你我用最少時間、精力、資金洞察近期金融市場的變化與重點分享。
留言0
查看全部
發表第一個留言支持創作者!
分析師的市場觀點 的其他內容
中概股近期轉強,主要是因為中國的“一行一局一會”所宣布的政策刺激了市場信心,股市在星期二齊步大漲超過4%。特別是那指金龍指數在當日大漲540.18點或9.13%,創下以來最高的單日漲幅。中概股ADR也表現出色,如拼多多(PDD-US)升超過11%。中國政府推出的政策包括降低存款準備金率(RRR)、政
金融市場重點整理 1. 日期: 2024/9/24 2. 重點摘要: 中國刺激措施推升美股開盤: 中國人行宣布降息、降準等一系列刺激措施,提振市場情緒,帶動美股開高。 經濟數據疲軟引發擔憂: 消費者信心指數意外下滑,引發市場對經濟衰退的擔憂,美股一度翻黑。 AI 類股領漲: Nvidia
摘要 此報告分析了日月光投控因應台積電 CoWoS 產能擴張計劃的影響。儘管日月光在 CoWoS-S 的認證時程可能延後至 2026 年,但其可望從 NVIDIA AI GPU 的 oS 和測試需求中獲益。報告認為,台積電將 CoWoS-R 訂單轉移給日月光,以及 NVIDIA AI GPU 的強
摘要 本報告重點關注台積電因應強勁AI需求,在先進封裝和製程技術上的積極擴張。台積電計劃提前一年擴增CoWoS產能至8萬片,並持續擴大2nm和3nm製程產能,預計2025年資本支出將達380億美元。此外,台積電預期未來五年營收年複合成長率可達15-20%,顯示其長期成長潜力。 重點 受惠於Nv
摘要 本文探討了 NVIDIA Blackwell 晶片量產對 AI 供應鏈的影響,尤其關注台積電 CoWoS 產能和相關供應商的受益情況。文章指出,儘管短期內 Hopper 需求健康,Blackwell 晶片也將開始放量,但 GB200 伺服器機架系統的整合調試仍在進行中。摩根士丹利看好 AI
金融市場重點整理 1. 日期: 2024/9/23 2. 重點摘要: 美股窄幅震盪,主要指數小幅上漲,市場情緒受到經濟數據和Fed官員談話影響。 美國經濟數據表現不俗,增強市場對於美國經濟軟著陸的信心。 多位Fed官員公開談話,強化市場對於聯準會將連續降息的信心。 伊朗釋出善意,表示願意
中概股近期轉強,主要是因為中國的“一行一局一會”所宣布的政策刺激了市場信心,股市在星期二齊步大漲超過4%。特別是那指金龍指數在當日大漲540.18點或9.13%,創下以來最高的單日漲幅。中概股ADR也表現出色,如拼多多(PDD-US)升超過11%。中國政府推出的政策包括降低存款準備金率(RRR)、政
金融市場重點整理 1. 日期: 2024/9/24 2. 重點摘要: 中國刺激措施推升美股開盤: 中國人行宣布降息、降準等一系列刺激措施,提振市場情緒,帶動美股開高。 經濟數據疲軟引發擔憂: 消費者信心指數意外下滑,引發市場對經濟衰退的擔憂,美股一度翻黑。 AI 類股領漲: Nvidia
摘要 此報告分析了日月光投控因應台積電 CoWoS 產能擴張計劃的影響。儘管日月光在 CoWoS-S 的認證時程可能延後至 2026 年,但其可望從 NVIDIA AI GPU 的 oS 和測試需求中獲益。報告認為,台積電將 CoWoS-R 訂單轉移給日月光,以及 NVIDIA AI GPU 的強
摘要 本報告重點關注台積電因應強勁AI需求,在先進封裝和製程技術上的積極擴張。台積電計劃提前一年擴增CoWoS產能至8萬片,並持續擴大2nm和3nm製程產能,預計2025年資本支出將達380億美元。此外,台積電預期未來五年營收年複合成長率可達15-20%,顯示其長期成長潜力。 重點 受惠於Nv
摘要 本文探討了 NVIDIA Blackwell 晶片量產對 AI 供應鏈的影響,尤其關注台積電 CoWoS 產能和相關供應商的受益情況。文章指出,儘管短期內 Hopper 需求健康,Blackwell 晶片也將開始放量,但 GB200 伺服器機架系統的整合調試仍在進行中。摩根士丹利看好 AI
金融市場重點整理 1. 日期: 2024/9/23 2. 重點摘要: 美股窄幅震盪,主要指數小幅上漲,市場情緒受到經濟數據和Fed官員談話影響。 美國經濟數據表現不俗,增強市場對於美國經濟軟著陸的信心。 多位Fed官員公開談話,強化市場對於聯準會將連續降息的信心。 伊朗釋出善意,表示願意
本篇參與的主題策展
隨著美國大選進入最後階段,川普在面對賀錦麗的競爭情勢中展現出領先態勢,影響了市場動向及股市表現。根據聯準會的最新預測,今明年美國經濟成長率穩定在2%。川普若勝選,預計將有利於金融股及內需類股,而賀錦麗勝選則可能繼續拜登政策,市場反應經濟基本面。投資人應關注選舉結果,合理配置投資組合。
終於開始看施昇輝老師的書了,之前主要是看他在節目上發言,這次算是靜下來真的第一次看他的書。這算是他特別為了小資族打造的書,所以針對的收入跟各種也走向小資,力求簡單無腦投資,捨棄一些不需要的動作。下面就來看看書中我覺得很不錯的概念吧。
市值型ETF包括美股和臺股,美股因手續費推薦長抱,而臺股則適合進出。不斷買進又賣出可能錯過配發股息和獲利時機,增加成本。定期定額投資則能享受複利效應,建議躺平投資以獲得最大效益。結論永遠留在市場享受複利,若需要現金流可配置到市值型ETF或債券型ETF,不要必須賣股換現金。
在高股息ETF的投資中,重要的是要找到適合的買入時間和賣出時間。一般來說,計算股價和股利的比值可以判斷是否適合買入,而在賣出時,可以以總股利收益作為參考。股票投資的關鍵在於持續的買入和加碼,以及在合適的時間出場,以最大化收益。
這本書算是日本人撰寫的投資書,主要透過各種小故事講述55條個有錢人的思考法則。裡面是沒有教怎麼投資,更多的反而是觀念上的討論,對於自己職場的工作、投資、創業或是改善關係等,我覺得都蠻有幫助的,比較像是觀念建立的書,很推薦一讀。
隨著美國大選進入最後階段,川普在面對賀錦麗的競爭情勢中展現出領先態勢,影響了市場動向及股市表現。根據聯準會的最新預測,今明年美國經濟成長率穩定在2%。川普若勝選,預計將有利於金融股及內需類股,而賀錦麗勝選則可能繼續拜登政策,市場反應經濟基本面。投資人應關注選舉結果,合理配置投資組合。
終於開始看施昇輝老師的書了,之前主要是看他在節目上發言,這次算是靜下來真的第一次看他的書。這算是他特別為了小資族打造的書,所以針對的收入跟各種也走向小資,力求簡單無腦投資,捨棄一些不需要的動作。下面就來看看書中我覺得很不錯的概念吧。
市值型ETF包括美股和臺股,美股因手續費推薦長抱,而臺股則適合進出。不斷買進又賣出可能錯過配發股息和獲利時機,增加成本。定期定額投資則能享受複利效應,建議躺平投資以獲得最大效益。結論永遠留在市場享受複利,若需要現金流可配置到市值型ETF或債券型ETF,不要必須賣股換現金。
在高股息ETF的投資中,重要的是要找到適合的買入時間和賣出時間。一般來說,計算股價和股利的比值可以判斷是否適合買入,而在賣出時,可以以總股利收益作為參考。股票投資的關鍵在於持續的買入和加碼,以及在合適的時間出場,以最大化收益。
這本書算是日本人撰寫的投資書,主要透過各種小故事講述55條個有錢人的思考法則。裡面是沒有教怎麼投資,更多的反而是觀念上的討論,對於自己職場的工作、投資、創業或是改善關係等,我覺得都蠻有幫助的,比較像是觀念建立的書,很推薦一讀。
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
說AI會取代人類的工作,就像說有了網路或PowerPoint公司就不必聘請員工一樣荒謬。
Thumbnail
AI高速發展,現今一天的變幻超過古代十年的發展,不少人對未來充滿焦慮、迷茫,但一直以來都有一項能力,不僅人人都能學、還無法被AI取代﹔而貫穿古今,只要精通這能力,人生普遍差不了…
Thumbnail
人工智能:革命性技術的崛起與挑戰 1. 什麼是人工智能? 人工智能(AI)是指由人類創造的機器或系統,能夠模仿人類智能,執行通常需要人類智能才能完成的任務。這包括學習、問題解決、語言理解、視覺感知等能力。AI系統可以處理大量數據,識別模式,並根據這些信息做出決策或預測。 2.
Thumbnail
程式設計與技術能力 在現代社會中的重要性越來越明顯,尤其是在人工智能(AI)和自動化技術迅速發展的背景下。理解編程語言,如Python、R等,以及熟悉相關技術架構和工具,能夠幫助個人在這樣的環境中更好地工作。這種能力不僅對技術專業人士至關重要,也對非技術領域的人士日益重要,因為基礎的程式設計知識已
先下手為強:利用AI提高競爭力 在大多數人還在觀望AI的潛力時,先下手的人已經開始發揮出巨大的優勢。關鍵在於,你需要主動推動AI的使用邊界,而不是等待技術發展逼近你。 以下是一些具體的策略: 探索新應用場景:不斷嘗試將AI應用於更多的工作環節,探索其潛力。 提升個人技能:學習和掌握更多AI相
曾經有人這麼說過,人工智能將會取代人類許多工作,從勞力這種基礎的工作一直到繪圖師、聲音工作者等等的藝術層面,到現在,最新的AI經過十幾年的學習,輸入了難以想像的判決數量後,AI的觸手伸向了法學界。
Thumbnail
AI真的能取代人類嗎? 或許有一些工作不再需要那麼多人,但是,不會有哪一種工作完全不需要人來做。 人類能做什麼?
Thumbnail
如何運用A I這個工具,以人為本,不是讓AI主導你的人生。
Thumbnail
隨著AI技術的普及,瞭解AI工具的重要性。本文介紹AI工具的應用,分享最新的GPT-4o的功能和優勢,並提出AI與人類智慧相結合的見解。
Thumbnail
AI 的快速發展,顛覆了各個產業的發展,ChatGPT 的出現,加快了作家寫作的速度,加快了工程師寫程式的速度,世界正在快速的改變。許多人開始探究自己的工作會不會被 AI 取代,身為資料領域的工作者,我也開始在思考,當 AI 的能力不斷進化且遠遠超過人類時,在我的工作中有哪些任務交給 AI 會更
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
說AI會取代人類的工作,就像說有了網路或PowerPoint公司就不必聘請員工一樣荒謬。
Thumbnail
AI高速發展,現今一天的變幻超過古代十年的發展,不少人對未來充滿焦慮、迷茫,但一直以來都有一項能力,不僅人人都能學、還無法被AI取代﹔而貫穿古今,只要精通這能力,人生普遍差不了…
Thumbnail
人工智能:革命性技術的崛起與挑戰 1. 什麼是人工智能? 人工智能(AI)是指由人類創造的機器或系統,能夠模仿人類智能,執行通常需要人類智能才能完成的任務。這包括學習、問題解決、語言理解、視覺感知等能力。AI系統可以處理大量數據,識別模式,並根據這些信息做出決策或預測。 2.
Thumbnail
程式設計與技術能力 在現代社會中的重要性越來越明顯,尤其是在人工智能(AI)和自動化技術迅速發展的背景下。理解編程語言,如Python、R等,以及熟悉相關技術架構和工具,能夠幫助個人在這樣的環境中更好地工作。這種能力不僅對技術專業人士至關重要,也對非技術領域的人士日益重要,因為基礎的程式設計知識已
先下手為強:利用AI提高競爭力 在大多數人還在觀望AI的潛力時,先下手的人已經開始發揮出巨大的優勢。關鍵在於,你需要主動推動AI的使用邊界,而不是等待技術發展逼近你。 以下是一些具體的策略: 探索新應用場景:不斷嘗試將AI應用於更多的工作環節,探索其潛力。 提升個人技能:學習和掌握更多AI相
曾經有人這麼說過,人工智能將會取代人類許多工作,從勞力這種基礎的工作一直到繪圖師、聲音工作者等等的藝術層面,到現在,最新的AI經過十幾年的學習,輸入了難以想像的判決數量後,AI的觸手伸向了法學界。
Thumbnail
AI真的能取代人類嗎? 或許有一些工作不再需要那麼多人,但是,不會有哪一種工作完全不需要人來做。 人類能做什麼?
Thumbnail
如何運用A I這個工具,以人為本,不是讓AI主導你的人生。
Thumbnail
隨著AI技術的普及,瞭解AI工具的重要性。本文介紹AI工具的應用,分享最新的GPT-4o的功能和優勢,並提出AI與人類智慧相結合的見解。
Thumbnail
AI 的快速發展,顛覆了各個產業的發展,ChatGPT 的出現,加快了作家寫作的速度,加快了工程師寫程式的速度,世界正在快速的改變。許多人開始探究自己的工作會不會被 AI 取代,身為資料領域的工作者,我也開始在思考,當 AI 的能力不斷進化且遠遠超過人類時,在我的工作中有哪些任務交給 AI 會更