解密 AI 與資料科學 (一) : AI 開發鏈, 跨領域溝通 & 最具未來性的職業

更新 發佈閱讀 4 分鐘

raw-image


經過一年多洗禮,大家對 AI 認識不少,很多人更好奇,資料/ AI領域在做什麼?如何學習?相關底層技術有什麼。為回應這些問題,我寫下這一系列文章,將由淺入深提介紹資料科學領域、分工、使用技術、實用問題,並推薦學習教材﹝經本人學習與實戰經驗篩選!﹞。本文是系列文第一篇,介紹「資料科學的領域與分工」。

 

|AI 價值鏈:一條比想像中難走的路

可能是出於對技術的樂觀,一般情況下﹝可能不少業界和普遍人士﹞,人們總感覺好像把 AI 融入組織,就能很快產生豐厚的價值。可是從資料到產生價值這個過程比想像的更久、更難,需要許多資料科學技術密切投入,才可能產生研發的價值。

 

AI 價值鏈

AI 價值鏈


一、首先,就資料收集來說就是一門大課題。資料的選擇密切與研發目標相關。如果你想關注農產品的價格,你需要考量不同層級影響指標,像是市場事件、競合國的供應鏈,或總體經濟指標等。假如是一位健身教練,他蒐集偏好可能傾向用戶的健身頻率、健身菜單、飲食追蹤或是學員失聯多久。更有趣的是,即便是婚姻市場也能數據化,例如夫妻雙方人格測試、家庭是否單親,甚至有沒有經常上教會等等。總之能收集的有許多,有時候也很吃創意。

 

同時,這個環節也與「資料工程」密切相關,涉及所收集的資料用什麼方式管理,如何設計資料庫,還有打造有效率的資料提取流程等工程事項。我也見過有些組織不懷目的性的收集數據,也許只是為了建檔,或是加快數位化帶來的方便而已;也有一些組織有想法,但是不知道要收集什麼數據,或是因為隱私安全疑慮而無法起步。

 

二、有了資料以後,才是 AI﹝或機器學習﹞發揮的地方。這個步驟是資料科學家的主秀,涉及資料的探索、清洗、數據操作和 AI 模型訓練,非常細節。這個部分既看經驗也看創意,研發人員會探索資料的性質,並使用許多數學或演算方法。目的是為了更認識數據,並設計出能為 AI 演算法所用的數據模式。經過一番的訓練、測試與教調後產生出模型。而另一方面,資料分析師也可以在資料與資料流完整的環境下進行數據分析,產生商業洞見與決策訊息。

 

三、生出來的模型用來實戰預測,部署到機器或雲端以監控與實用,做 machine learning operation 用途。模型的生成只是個通泛的概念,可能是一個模型也可能是一群模型,可能是機器學習演算法,也可能是強化學習。因應目標不同,有不同的方法、準則、優化和篩選機制。總之這段只是要說明,AI 的價值鏈本身涉及研究目標及其息息相關的技術操作,有通用的概念,卻也需要case by case細微調整。

 

|數據科學領域的腳色與分工

先奉上一張圖,我覺得它把整個資料科學的工作流,講解得極為清楚。



本小節跟前一節是可以呼應的。圖中的「取得資料」,對應到前一節的第一點「資料收集」,衍伸出資料工程師、資料庫工程師和爬蟲工程師職業。從「資料前處理」到「模型評估」則對應到前一節第二點「AI 模型訓練」,其涉及到多種職業,他們有的善於視覺化和提出建議,有的善於使用算法、統計工具和軟體架構。而近年有名的職業「資料科學家」主要就在這個範圍活動。最後的「決策應用」則對應前一節的第三點「實戰應用」,圖中這一環節,水平與垂直分別對應涉及不同度的技術與決策洞見,而有了架構師和分析師兩個職位。

 

從這張圖其實看得出來,第一個是大家各司其職,但是卻互有交集。工程師、科學家、統計專家和分析師各有所長卻也互有交際;再來是職位的守備範圍很浮動,像是作為一個資料工程師,你可以橫向往圖中尺度的右邊走,透過數據處理提升領域知識;資料科學家也可以增強技術底,縱向的往軟體底層和後端走,既生成資料也可以設計架構。

 

對於職涯選擇的 “Job description” 好奇或困惑的,一定要多看幾次這張圖,從流水線分工的角度,理解他們的差異與交集。


所以分工與產業是非常複雜的。你真的能說讀什麼科系是有用,什麼沒用;什麼跟 AI 有關,什麼無關嗎?一個有政治學專業的人,可以為工程團隊提供領域見解,再加上一點統計學,其實他也可以跟尺度右邊的應用端進行技術溝通。相反地,誰說金融只能給財金人士搞呢?財務工程使用的模型如今也仰賴輝達的生態系﹝CUDA﹞進行模擬運算;衍生性金融商品預測,也常引入最優化的概念,這些又豈止是文組的事情──華爾街很多物理跟數學的人,有聽過吧?

 

我的核心精神就是廣泛學習,強化跨領域合作基礎實力。只要環境一直在擴張,一定有專屬我們的位置;即便環境不好,你也不會挫敗。


這篇就先到這,下一篇我們要講 AI 的類型與發揮的戰場。

留言
avatar-img
Darren的沙龍
16會員
14內容數
大數據意味著什麼?數據科學背後有怎樣的mind set和技術?數據科學家又做些什麼?這些科技/技術,帶給我們什麼生活上和人文上的省思?這個專題會橫跨這些彼此相關的面向,避開生澀的專業詞彙,探索這些事情背後的樣貌。應該會是有趣的知識和想法分享﹝笑﹞
Darren的沙龍的其他內容
2024/08/31
文章主攻四大領域:機率與統計、計量經濟和量化金融分析。以機率統計為核心主幹,詳加說明其精神與應用。也會輔以其餘三個領域的介紹作為統計實例。統計學是AI / 機器學習背後的英雄,假設檢定與統計分布是其兩大特色,前者找出彼此相互關聯的變數;後者則幫助我們進行模擬和抽樣,幫助我們找尋最優解或近似真實值。
Thumbnail
2024/08/31
文章主攻四大領域:機率與統計、計量經濟和量化金融分析。以機率統計為核心主幹,詳加說明其精神與應用。也會輔以其餘三個領域的介紹作為統計實例。統計學是AI / 機器學習背後的英雄,假設檢定與統計分布是其兩大特色,前者找出彼此相互關聯的變數;後者則幫助我們進行模擬和抽樣,幫助我們找尋最優解或近似真實值。
Thumbnail
2024/07/19
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
2024/07/19
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
2024/06/23
魔球記載MLB奧克蘭運動家隊的真實故事。該隊以小搏大,用數據思維選出一批從未被看好的球員,打出最瘋狂的佳績。 這本是經典老書了,書中細節大家已多有討論,我只著重在「統計數據」與「新舊觀念衝突」兩部分。透過魔球的精神,反思今天科技時代下「人」或「人才」的價值,我也會表達我對一個大趨勢形成的看法。
Thumbnail
2024/06/23
魔球記載MLB奧克蘭運動家隊的真實故事。該隊以小搏大,用數據思維選出一批從未被看好的球員,打出最瘋狂的佳績。 這本是經典老書了,書中細節大家已多有討論,我只著重在「統計數據」與「新舊觀念衝突」兩部分。透過魔球的精神,反思今天科技時代下「人」或「人才」的價值,我也會表達我對一個大趨勢形成的看法。
Thumbnail
看更多
你可能也想看
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
在 vocus 與你一起探索內容、發掘靈感的路上,我們又將啟動新的冒險——vocus App 正式推出! 現在起,你可以在 iOS App Store 下載全新上架的 vocus App。 無論是在通勤路上、日常空檔,或一天結束後的放鬆時刻,都能自在沈浸在內容宇宙中。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
AI 的快速發展,顛覆了各個產業的發展,ChatGPT 的出現,加快了作家寫作的速度,加快了工程師寫程式的速度,世界正在快速的改變。許多人開始探究自己的工作會不會被 AI 取代,身為資料領域的工作者,我也開始在思考,當 AI 的能力不斷進化且遠遠超過人類時,在我的工作中有哪些任務交給 AI 會更
Thumbnail
AI 的快速發展,顛覆了各個產業的發展,ChatGPT 的出現,加快了作家寫作的速度,加快了工程師寫程式的速度,世界正在快速的改變。許多人開始探究自己的工作會不會被 AI 取代,身為資料領域的工作者,我也開始在思考,當 AI 的能力不斷進化且遠遠超過人類時,在我的工作中有哪些任務交給 AI 會更
Thumbnail
透過先進的技術將繁複的書籍內容轉換成精煉的摘要。這不僅是對當前技術進步的展現,也象徵著未來人工智慧與人類知識互動的無限可能性。
Thumbnail
透過先進的技術將繁複的書籍內容轉換成精煉的摘要。這不僅是對當前技術進步的展現,也象徵著未來人工智慧與人類知識互動的無限可能性。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
Thumbnail
在人工智慧(AI)領域中,生成式AI已經成為一個備受關注的分支,它不僅在創造性的工作中展現出強大的能力,還在各個領域中展現出潛在的應用價值。本文將從宏觀的角度出發,深入探討生成式AI的種類、概念、缺點、公司、訓練、發展趨勢以及原理,帶領讀者深入了解這個令人振奮的領域。
Thumbnail
在人工智慧(AI)領域中,生成式AI已經成為一個備受關注的分支,它不僅在創造性的工作中展現出強大的能力,還在各個領域中展現出潛在的應用價值。本文將從宏觀的角度出發,深入探討生成式AI的種類、概念、缺點、公司、訓練、發展趨勢以及原理,帶領讀者深入了解這個令人振奮的領域。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News