解密 AI 與資料科學 (一) : AI 開發鏈, 跨領域溝通 & 最具未來性的職業

更新於 發佈於 閱讀時間約 4 分鐘

raw-image


經過一年多洗禮,大家對 AI 認識不少,很多人更好奇,資料/ AI領域在做什麼?如何學習?相關底層技術有什麼。為回應這些問題,我寫下這一系列文章,將由淺入深提介紹資料科學領域、分工、使用技術、實用問題,並推薦學習教材﹝經本人學習與實戰經驗篩選!﹞。本文是系列文第一篇,介紹「資料科學的領域與分工」。

 

|AI 價值鏈:一條比想像中難走的路

可能是出於對技術的樂觀,一般情況下﹝可能不少業界和普遍人士﹞,人們總感覺好像把 AI 融入組織,就能很快產生豐厚的價值。可是從資料到產生價值這個過程比想像的更久、更難,需要許多資料科學技術密切投入,才可能產生研發的價值。

 

AI 價值鏈

AI 價值鏈


一、首先,就資料收集來說就是一門大課題。資料的選擇密切與研發目標相關。如果你想關注農產品的價格,你需要考量不同層級影響指標,像是市場事件、競合國的供應鏈,或總體經濟指標等。假如是一位健身教練,他蒐集偏好可能傾向用戶的健身頻率、健身菜單、飲食追蹤或是學員失聯多久。更有趣的是,即便是婚姻市場也能數據化,例如夫妻雙方人格測試、家庭是否單親,甚至有沒有經常上教會等等。總之能收集的有許多,有時候也很吃創意。

 

同時,這個環節也與「資料工程」密切相關,涉及所收集的資料用什麼方式管理,如何設計資料庫,還有打造有效率的資料提取流程等工程事項。我也見過有些組織不懷目的性的收集數據,也許只是為了建檔,或是加快數位化帶來的方便而已;也有一些組織有想法,但是不知道要收集什麼數據,或是因為隱私安全疑慮而無法起步。

 

二、有了資料以後,才是 AI﹝或機器學習﹞發揮的地方。這個步驟是資料科學家的主秀,涉及資料的探索、清洗、數據操作和 AI 模型訓練,非常細節。這個部分既看經驗也看創意,研發人員會探索資料的性質,並使用許多數學或演算方法。目的是為了更認識數據,並設計出能為 AI 演算法所用的數據模式。經過一番的訓練、測試與教調後產生出模型。而另一方面,資料分析師也可以在資料與資料流完整的環境下進行數據分析,產生商業洞見與決策訊息。

 

三、生出來的模型用來實戰預測,部署到機器或雲端以監控與實用,做 machine learning operation 用途。模型的生成只是個通泛的概念,可能是一個模型也可能是一群模型,可能是機器學習演算法,也可能是強化學習。因應目標不同,有不同的方法、準則、優化和篩選機制。總之這段只是要說明,AI 的價值鏈本身涉及研究目標及其息息相關的技術操作,有通用的概念,卻也需要case by case細微調整。

 

|數據科學領域的腳色與分工

先奉上一張圖,我覺得它把整個資料科學的工作流,講解得極為清楚。



本小節跟前一節是可以呼應的。圖中的「取得資料」,對應到前一節的第一點「資料收集」,衍伸出資料工程師、資料庫工程師和爬蟲工程師職業。從「資料前處理」到「模型評估」則對應到前一節第二點「AI 模型訓練」,其涉及到多種職業,他們有的善於視覺化和提出建議,有的善於使用算法、統計工具和軟體架構。而近年有名的職業「資料科學家」主要就在這個範圍活動。最後的「決策應用」則對應前一節的第三點「實戰應用」,圖中這一環節,水平與垂直分別對應涉及不同度的技術與決策洞見,而有了架構師和分析師兩個職位。

 

從這張圖其實看得出來,第一個是大家各司其職,但是卻互有交集。工程師、科學家、統計專家和分析師各有所長卻也互有交際;再來是職位的守備範圍很浮動,像是作為一個資料工程師,你可以橫向往圖中尺度的右邊走,透過數據處理提升領域知識;資料科學家也可以增強技術底,縱向的往軟體底層和後端走,既生成資料也可以設計架構。

 

對於職涯選擇的 “Job description” 好奇或困惑的,一定要多看幾次這張圖,從流水線分工的角度,理解他們的差異與交集。


所以分工與產業是非常複雜的。你真的能說讀什麼科系是有用,什麼沒用;什麼跟 AI 有關,什麼無關嗎?一個有政治學專業的人,可以為工程團隊提供領域見解,再加上一點統計學,其實他也可以跟尺度右邊的應用端進行技術溝通。相反地,誰說金融只能給財金人士搞呢?財務工程使用的模型如今也仰賴輝達的生態系﹝CUDA﹞進行模擬運算;衍生性金融商品預測,也常引入最優化的概念,這些又豈止是文組的事情──華爾街很多物理跟數學的人,有聽過吧?

 

我的核心精神就是廣泛學習,強化跨領域合作基礎實力。只要環境一直在擴張,一定有專屬我們的位置;即便環境不好,你也不會挫敗。


這篇就先到這,下一篇我們要講 AI 的類型與發揮的戰場。

avatar-img
14會員
14內容數
大數據意味著什麼?數據科學背後有怎樣的mind set和技術?數據科學家又做些什麼?這些科技/技術,帶給我們什麼生活上和人文上的省思?這個專題會橫跨這些彼此相關的面向,避開生澀的專業詞彙,探索這些事情背後的樣貌。應該會是有趣的知識和想法分享﹝笑﹞
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Darren的沙龍 的其他內容
魔球記載MLB奧克蘭運動家隊的真實故事。該隊以小搏大,用數據思維選出一批從未被看好的球員,打出最瘋狂的佳績。 這本是經典老書了,書中細節大家已多有討論,我只著重在「統計數據」與「新舊觀念衝突」兩部分。透過魔球的精神,反思今天科技時代下「人」或「人才」的價值,我也會表達我對一個大趨勢形成的看法。
正文1,724字,主要跟你分享未來 AI 變更強更效率的兩個層面──數據與模型框架。你會從實務者的觀點,知道數據跟 AI (或機器學習模型) 表現間的關係;了解 ChatGPT 為什麼有運算資源的困擾;同時,你也會看到目前最新改善 AI 運算速度的技術發表。
去年錄製好的線上課程,今年終於上架了! 非常慚愧,在方格子平台還沒寫幾篇內容,就要先宣傳自己的課程。不過現在67折優惠,宣傳還是有必要的吧,哈!我就維持喜寫論述的習性,介紹一下這門課程,以及我在這個領域──金融商品價格預測──所看見的狀況。 好奇的可以當補充課外知識,有興趣的可以看文末的課程連結。
本文回答幾個問題:(一) 什麼叫做湧現;(二)湧現是什麼現象;(三)為什麼我們造不出自己的超級 AI。看完後,你會理解現在 AI 的現象跟趨勢、一些技術與專有名詞,像是參數、大型機構與他們模型的名字。
這篇來寫,嘗試用GPT4解決工作中,一個讓我渾身難受的問題。 任務說明 我要做的事情是,把word檔中表格的部分資訊擷取出來。下圖的示範表格即是一例。 我需要存取表格中特定元素資訊,例如 Net Calorific Value,我得存下Min. 4,750這個訊息,同理可知,Total Sulfur
在英國與老師對嗆?! 先說個故事吧,以前在英國讀書的時候,去選修了一堂數學系的課。 那位老師嚴格要求,選修的學生必須是數學系的學生。如果不是,那學生必須說明自己擁有夠強的數學能力。 我不是數學系的學生,可我終究是吃硬柿子的人。因為我知道,若想加強數學的底子,就必須到這裡來──後來還是去上課了。 上了
魔球記載MLB奧克蘭運動家隊的真實故事。該隊以小搏大,用數據思維選出一批從未被看好的球員,打出最瘋狂的佳績。 這本是經典老書了,書中細節大家已多有討論,我只著重在「統計數據」與「新舊觀念衝突」兩部分。透過魔球的精神,反思今天科技時代下「人」或「人才」的價值,我也會表達我對一個大趨勢形成的看法。
正文1,724字,主要跟你分享未來 AI 變更強更效率的兩個層面──數據與模型框架。你會從實務者的觀點,知道數據跟 AI (或機器學習模型) 表現間的關係;了解 ChatGPT 為什麼有運算資源的困擾;同時,你也會看到目前最新改善 AI 運算速度的技術發表。
去年錄製好的線上課程,今年終於上架了! 非常慚愧,在方格子平台還沒寫幾篇內容,就要先宣傳自己的課程。不過現在67折優惠,宣傳還是有必要的吧,哈!我就維持喜寫論述的習性,介紹一下這門課程,以及我在這個領域──金融商品價格預測──所看見的狀況。 好奇的可以當補充課外知識,有興趣的可以看文末的課程連結。
本文回答幾個問題:(一) 什麼叫做湧現;(二)湧現是什麼現象;(三)為什麼我們造不出自己的超級 AI。看完後,你會理解現在 AI 的現象跟趨勢、一些技術與專有名詞,像是參數、大型機構與他們模型的名字。
這篇來寫,嘗試用GPT4解決工作中,一個讓我渾身難受的問題。 任務說明 我要做的事情是,把word檔中表格的部分資訊擷取出來。下圖的示範表格即是一例。 我需要存取表格中特定元素資訊,例如 Net Calorific Value,我得存下Min. 4,750這個訊息,同理可知,Total Sulfur
在英國與老師對嗆?! 先說個故事吧,以前在英國讀書的時候,去選修了一堂數學系的課。 那位老師嚴格要求,選修的學生必須是數學系的學生。如果不是,那學生必須說明自己擁有夠強的數學能力。 我不是數學系的學生,可我終究是吃硬柿子的人。因為我知道,若想加強數學的底子,就必須到這裡來──後來還是去上課了。 上了
你可能也想看
Google News 追蹤
Thumbnail
最近國泰世華CUBE App推出的「美股定期定額」功能,讓使用者可以方便地進行跨境理財(但讀者仍需根據自身需求審慎考量),除了享有美股定期定額的新功能,也同時享有台股定期定額的功能,可以一站滿足我們理財的需求! 透過國泰世華CUBE App線上開台股證券戶+複委託戶,流程最快僅需要5分鐘。
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
在信息爆炸的時代,科研工作面臨着前所未有的挑戰——學術論文的數量每天都在增加,研究領域的交叉和融合日益頻繁。如何在海量的文獻中迅速找到對自己研究有價值的信息,成爲了科研人員必須面對的問題。同時,科研工作的複雜性也在不斷提高,從文獻閱讀到數據分析,從實驗設計到論文撰寫,每一個環節都需要投入大量的時
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們在AI說書 - 從0開始 - 28中闡述了一些AI專業者的未來發展方向,現在我們更細分: 人工智慧專家在人工智慧某一領域擁有專業知識或技能,包含微調模型、維護和支
Thumbnail
AI 的快速發展,顛覆了各個產業的發展,ChatGPT 的出現,加快了作家寫作的速度,加快了工程師寫程式的速度,世界正在快速的改變。許多人開始探究自己的工作會不會被 AI 取代,身為資料領域的工作者,我也開始在思考,當 AI 的能力不斷進化且遠遠超過人類時,在我的工作中有哪些任務交給 AI 會更
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
Thumbnail
透過先進的技術將繁複的書籍內容轉換成精煉的摘要。這不僅是對當前技術進步的展現,也象徵著未來人工智慧與人類知識互動的無限可能性。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
Thumbnail
最近國泰世華CUBE App推出的「美股定期定額」功能,讓使用者可以方便地進行跨境理財(但讀者仍需根據自身需求審慎考量),除了享有美股定期定額的新功能,也同時享有台股定期定額的功能,可以一站滿足我們理財的需求! 透過國泰世華CUBE App線上開台股證券戶+複委託戶,流程最快僅需要5分鐘。
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
在信息爆炸的時代,科研工作面臨着前所未有的挑戰——學術論文的數量每天都在增加,研究領域的交叉和融合日益頻繁。如何在海量的文獻中迅速找到對自己研究有價值的信息,成爲了科研人員必須面對的問題。同時,科研工作的複雜性也在不斷提高,從文獻閱讀到數據分析,從實驗設計到論文撰寫,每一個環節都需要投入大量的時
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們在AI說書 - 從0開始 - 28中闡述了一些AI專業者的未來發展方向,現在我們更細分: 人工智慧專家在人工智慧某一領域擁有專業知識或技能,包含微調模型、維護和支
Thumbnail
AI 的快速發展,顛覆了各個產業的發展,ChatGPT 的出現,加快了作家寫作的速度,加快了工程師寫程式的速度,世界正在快速的改變。許多人開始探究自己的工作會不會被 AI 取代,身為資料領域的工作者,我也開始在思考,當 AI 的能力不斷進化且遠遠超過人類時,在我的工作中有哪些任務交給 AI 會更
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
Thumbnail
透過先進的技術將繁複的書籍內容轉換成精煉的摘要。這不僅是對當前技術進步的展現,也象徵著未來人工智慧與人類知識互動的無限可能性。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。