解密 AI 與資料科學 (一) : AI 開發鏈, 跨領域溝通 & 最具未來性的職業

閱讀時間約 4 分鐘

raw-image


經過一年多洗禮,大家對 AI 認識不少,很多人更好奇,資料/ AI領域在做什麼?如何學習?相關底層技術有什麼。為回應這些問題,我寫下這一系列文章,將由淺入深提介紹資料科學領域、分工、使用技術、實用問題,並推薦學習教材﹝經本人學習與實戰經驗篩選!﹞。本文是系列文第一篇,介紹「資料科學的領域與分工」。

 

|AI 價值鏈:一條比想像中難走的路

可能是出於對技術的樂觀,一般情況下﹝可能不少業界和普遍人士﹞,人們總感覺好像把 AI 融入組織,就能很快產生豐厚的價值。可是從資料到產生價值這個過程比想像的更久、更難,需要許多資料科學技術密切投入,才可能產生研發的價值。

 

AI 價值鏈

AI 價值鏈


一、首先,就資料收集來說就是一門大課題。資料的選擇密切與研發目標相關。如果你想關注農產品的價格,你需要考量不同層級影響指標,像是市場事件、競合國的供應鏈,或總體經濟指標等。假如是一位健身教練,他蒐集偏好可能傾向用戶的健身頻率、健身菜單、飲食追蹤或是學員失聯多久。更有趣的是,即便是婚姻市場也能數據化,例如夫妻雙方人格測試、家庭是否單親,甚至有沒有經常上教會等等。總之能收集的有許多,有時候也很吃創意。

 

同時,這個環節也與「資料工程」密切相關,涉及所收集的資料用什麼方式管理,如何設計資料庫,還有打造有效率的資料提取流程等工程事項。我也見過有些組織不懷目的性的收集數據,也許只是為了建檔,或是加快數位化帶來的方便而已;也有一些組織有想法,但是不知道要收集什麼數據,或是因為隱私安全疑慮而無法起步。

 

二、有了資料以後,才是 AI﹝或機器學習﹞發揮的地方。這個步驟是資料科學家的主秀,涉及資料的探索、清洗、數據操作和 AI 模型訓練,非常細節。這個部分既看經驗也看創意,研發人員會探索資料的性質,並使用許多數學或演算方法。目的是為了更認識數據,並設計出能為 AI 演算法所用的數據模式。經過一番的訓練、測試與教調後產生出模型。而另一方面,資料分析師也可以在資料與資料流完整的環境下進行數據分析,產生商業洞見與決策訊息。

 

三、生出來的模型用來實戰預測,部署到機器或雲端以監控與實用,做 machine learning operation 用途。模型的生成只是個通泛的概念,可能是一個模型也可能是一群模型,可能是機器學習演算法,也可能是強化學習。因應目標不同,有不同的方法、準則、優化和篩選機制。總之這段只是要說明,AI 的價值鏈本身涉及研究目標及其息息相關的技術操作,有通用的概念,卻也需要case by case細微調整。

 

|數據科學領域的腳色與分工

先奉上一張圖,我覺得它把整個資料科學的工作流,講解得極為清楚。



本小節跟前一節是可以呼應的。圖中的「取得資料」,對應到前一節的第一點「資料收集」,衍伸出資料工程師、資料庫工程師和爬蟲工程師職業。從「資料前處理」到「模型評估」則對應到前一節第二點「AI 模型訓練」,其涉及到多種職業,他們有的善於視覺化和提出建議,有的善於使用算法、統計工具和軟體架構。而近年有名的職業「資料科學家」主要就在這個範圍活動。最後的「決策應用」則對應前一節的第三點「實戰應用」,圖中這一環節,水平與垂直分別對應涉及不同度的技術與決策洞見,而有了架構師和分析師兩個職位。

 

從這張圖其實看得出來,第一個是大家各司其職,但是卻互有交集。工程師、科學家、統計專家和分析師各有所長卻也互有交際;再來是職位的守備範圍很浮動,像是作為一個資料工程師,你可以橫向往圖中尺度的右邊走,透過數據處理提升領域知識;資料科學家也可以增強技術底,縱向的往軟體底層和後端走,既生成資料也可以設計架構。

 

對於職涯選擇的 “Job description” 好奇或困惑的,一定要多看幾次這張圖,從流水線分工的角度,理解他們的差異與交集。


所以分工與產業是非常複雜的。你真的能說讀什麼科系是有用,什麼沒用;什麼跟 AI 有關,什麼無關嗎?一個有政治學專業的人,可以為工程團隊提供領域見解,再加上一點統計學,其實他也可以跟尺度右邊的應用端進行技術溝通。相反地,誰說金融只能給財金人士搞呢?財務工程使用的模型如今也仰賴輝達的生態系﹝CUDA﹞進行模擬運算;衍生性金融商品預測,也常引入最優化的概念,這些又豈止是文組的事情──華爾街很多物理跟數學的人,有聽過吧?

 

我的核心精神就是廣泛學習,強化跨領域合作基礎實力。只要環境一直在擴張,一定有專屬我們的位置;即便環境不好,你也不會挫敗。


這篇就先到這,下一篇我們要講 AI 的類型與發揮的戰場。

13會員
13內容數
大數據意味著什麼?數據科學背後有怎樣的mind set和技術?數據科學家又做些什麼?這些科技/技術,帶給我們什麼生活上和人文上的省思?這個專題會橫跨這些彼此相關的面向,避開生澀的專業詞彙,探索這些事情背後的樣貌。應該會是有趣的知識和想法分享﹝笑﹞
留言0
查看全部
發表第一個留言支持創作者!
Darren的沙龍 的其他內容
魔球記載MLB奧克蘭運動家隊的真實故事。該隊以小搏大,用數據思維選出一批從未被看好的球員,打出最瘋狂的佳績。 這本是經典老書了,書中細節大家已多有討論,我只著重在「統計數據」與「新舊觀念衝突」兩部分。透過魔球的精神,反思今天科技時代下「人」或「人才」的價值,我也會表達我對一個大趨勢形成的看法。
正文1,724字,主要跟你分享未來 AI 變更強更效率的兩個層面──數據與模型框架。你會從實務者的觀點,知道數據跟 AI (或機器學習模型) 表現間的關係;了解 ChatGPT 為什麼有運算資源的困擾;同時,你也會看到目前最新改善 AI 運算速度的技術發表。
去年錄製好的線上課程,今年終於上架了! 非常慚愧,在方格子平台還沒寫幾篇內容,就要先宣傳自己的課程。不過現在67折優惠,宣傳還是有必要的吧,哈!我就維持喜寫論述的習性,介紹一下這門課程,以及我在這個領域──金融商品價格預測──所看見的狀況。 好奇的可以當補充課外知識,有興趣的可以看文末的課程連結。
本文回答幾個問題:(一) 什麼叫做湧現;(二)湧現是什麼現象;(三)為什麼我們造不出自己的超級 AI。看完後,你會理解現在 AI 的現象跟趨勢、一些技術與專有名詞,像是參數、大型機構與他們模型的名字。
這篇來寫,嘗試用GPT4解決工作中,一個讓我渾身難受的問題。 任務說明 我要做的事情是,把word檔中表格的部分資訊擷取出來。下圖的示範表格即是一例。 我需要存取表格中特定元素資訊,例如 Net Calorific Value,我得存下Min. 4,750這個訊息,同理可知,Total Sulfur
在英國與老師對嗆?! 先說個故事吧,以前在英國讀書的時候,去選修了一堂數學系的課。 那位老師嚴格要求,選修的學生必須是數學系的學生。如果不是,那學生必須說明自己擁有夠強的數學能力。 我不是數學系的學生,可我終究是吃硬柿子的人。因為我知道,若想加強數學的底子,就必須到這裡來──後來還是去上課了。 上了
魔球記載MLB奧克蘭運動家隊的真實故事。該隊以小搏大,用數據思維選出一批從未被看好的球員,打出最瘋狂的佳績。 這本是經典老書了,書中細節大家已多有討論,我只著重在「統計數據」與「新舊觀念衝突」兩部分。透過魔球的精神,反思今天科技時代下「人」或「人才」的價值,我也會表達我對一個大趨勢形成的看法。
正文1,724字,主要跟你分享未來 AI 變更強更效率的兩個層面──數據與模型框架。你會從實務者的觀點,知道數據跟 AI (或機器學習模型) 表現間的關係;了解 ChatGPT 為什麼有運算資源的困擾;同時,你也會看到目前最新改善 AI 運算速度的技術發表。
去年錄製好的線上課程,今年終於上架了! 非常慚愧,在方格子平台還沒寫幾篇內容,就要先宣傳自己的課程。不過現在67折優惠,宣傳還是有必要的吧,哈!我就維持喜寫論述的習性,介紹一下這門課程,以及我在這個領域──金融商品價格預測──所看見的狀況。 好奇的可以當補充課外知識,有興趣的可以看文末的課程連結。
本文回答幾個問題:(一) 什麼叫做湧現;(二)湧現是什麼現象;(三)為什麼我們造不出自己的超級 AI。看完後,你會理解現在 AI 的現象跟趨勢、一些技術與專有名詞,像是參數、大型機構與他們模型的名字。
這篇來寫,嘗試用GPT4解決工作中,一個讓我渾身難受的問題。 任務說明 我要做的事情是,把word檔中表格的部分資訊擷取出來。下圖的示範表格即是一例。 我需要存取表格中特定元素資訊,例如 Net Calorific Value,我得存下Min. 4,750這個訊息,同理可知,Total Sulfur
在英國與老師對嗆?! 先說個故事吧,以前在英國讀書的時候,去選修了一堂數學系的課。 那位老師嚴格要求,選修的學生必須是數學系的學生。如果不是,那學生必須說明自己擁有夠強的數學能力。 我不是數學系的學生,可我終究是吃硬柿子的人。因為我知道,若想加強數學的底子,就必須到這裡來──後來還是去上課了。 上了
你可能也想看
Thumbnail
八十-二十法則提到,在多數生活的現象中,約80%的效果是來自於20%的原因,除了經濟學、學習理論外,這個法則同樣也可以應用在生活中的幸福感上。 我們需要認知到擁有的越多不一定會越快樂,反而有可能會因為無法專注在少數事物上而產生空虛、迷茫的感覺。「極簡」精神最重要的一點在於放下對於「多」的執著,將有
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
在今年的COMPUTEX展前演講中,Nvidia的首席執行官黃仁勳宣布了一個令人震驚的消息:Nvidia將從2025年開始每年更新其AI芯片。這一舉動無疑預示著一場新的工業革命正式拉開了序幕。
Thumbnail
本文揭示當前工業領域的一場無聲革命:智慧製造。在引言中,我們探討了智慧製造如何開啟生產力新紀元,隨後深入分析大數據如何加速生產過程中的創新與效率,成為本次革命的核心動力。從學術研究到現實應用,本文探討了智慧製造領域的發展脈絡,以及學界與業界共同推進的不可逆轉動能。
Thumbnail
ChatGPT 近期對 Plus 用戶釋出大量新功能,其中之一就是「Advanced Data Analysis」。許多人評斷,未來都可能被「不會寫程式」的人取代,因為人人都可以像資料科學家一樣,自由自在處理數據!相信許多讀者對 Plus 功能仍在觀望,畢竟所費不貲。筆者在這邊就示範一些功能給大家!
Thumbnail
Chatlize.ai 是由一名生物資訊學者 Steven Xijin Ge 所做,透過簡易的介面可以讓使用者輕鬆透過指令(prompt)的方式就可以輕鬆處理數據。結果不僅會直接提供程式原始碼、並執行,若有視覺化需求,它也會幫你完整視覺化。
Thumbnail
親愛的讀者朋友們, 大家好!近年來,人工智慧(AI)已經成為我們生活中不可或缺的一部分,無論是在科技、醫療、教育還是藝術領域,AI的應用無處不在。在這篇文章中,我們將帶您深入探索AI引領下的未來奇幻世界,揭示一個充滿可能性和挑戰的全新時代。 1. 創新的藝術革命:AI藝術家的誕生 從電影生成
Thumbnail
一直以來,我們在浩瀚的宇宙中尋找地外生命的任務都遇到一個重大的挑戰,那就是我們無法有效處理天文望遠鏡每15秒就產生的2GB數據。但現在,隨著AI的興起,我們能夠更有效地分析這些龐大的資料。
Thumbnail
相信大家都知道AI這個話題現在到底是有多夯,前些日子的黃仁勳之亂相信大家還都記憶猶新。今天推薦一部影片主要是講述 AI、機器學習及深度學習的概念,內容簡明扼要並又帶點幽默元素,希望非理工背景的大家都可以初步了解 AI這個概念。
Thumbnail
在這個科技日新月異的時代,人工智慧投資熱潮席捲全球,吸引了無數投資者的目光。然而,科博工作室馬博泰提醒大家,AI投資熱潮並不一定能帶來金錢收益,相較之下,賣鏟子十字鎬等傳統行業的收益更為穩定。那麼,投資者該如何看待AI投資熱潮呢?本文將從美國加州淘金熱的歷史出發,探討AI投資熱潮背後的真相。
Thumbnail
幾天前Sundar Pichai與夥伴受訪,對人工智慧做了總整理,這四個重點,能幫助我們重溫人與AI的關係。
Thumbnail
廣告背後的惡意「潛伏者」,如點擊農場、惡意程式、仿真機器人所帶來的垃圾流量正在鯨吞蠶食行銷效益,為全球品牌與客戶帶來巨大威脅
Thumbnail
八十-二十法則提到,在多數生活的現象中,約80%的效果是來自於20%的原因,除了經濟學、學習理論外,這個法則同樣也可以應用在生活中的幸福感上。 我們需要認知到擁有的越多不一定會越快樂,反而有可能會因為無法專注在少數事物上而產生空虛、迷茫的感覺。「極簡」精神最重要的一點在於放下對於「多」的執著,將有
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
在今年的COMPUTEX展前演講中,Nvidia的首席執行官黃仁勳宣布了一個令人震驚的消息:Nvidia將從2025年開始每年更新其AI芯片。這一舉動無疑預示著一場新的工業革命正式拉開了序幕。
Thumbnail
本文揭示當前工業領域的一場無聲革命:智慧製造。在引言中,我們探討了智慧製造如何開啟生產力新紀元,隨後深入分析大數據如何加速生產過程中的創新與效率,成為本次革命的核心動力。從學術研究到現實應用,本文探討了智慧製造領域的發展脈絡,以及學界與業界共同推進的不可逆轉動能。
Thumbnail
ChatGPT 近期對 Plus 用戶釋出大量新功能,其中之一就是「Advanced Data Analysis」。許多人評斷,未來都可能被「不會寫程式」的人取代,因為人人都可以像資料科學家一樣,自由自在處理數據!相信許多讀者對 Plus 功能仍在觀望,畢竟所費不貲。筆者在這邊就示範一些功能給大家!
Thumbnail
Chatlize.ai 是由一名生物資訊學者 Steven Xijin Ge 所做,透過簡易的介面可以讓使用者輕鬆透過指令(prompt)的方式就可以輕鬆處理數據。結果不僅會直接提供程式原始碼、並執行,若有視覺化需求,它也會幫你完整視覺化。
Thumbnail
親愛的讀者朋友們, 大家好!近年來,人工智慧(AI)已經成為我們生活中不可或缺的一部分,無論是在科技、醫療、教育還是藝術領域,AI的應用無處不在。在這篇文章中,我們將帶您深入探索AI引領下的未來奇幻世界,揭示一個充滿可能性和挑戰的全新時代。 1. 創新的藝術革命:AI藝術家的誕生 從電影生成
Thumbnail
一直以來,我們在浩瀚的宇宙中尋找地外生命的任務都遇到一個重大的挑戰,那就是我們無法有效處理天文望遠鏡每15秒就產生的2GB數據。但現在,隨著AI的興起,我們能夠更有效地分析這些龐大的資料。
Thumbnail
相信大家都知道AI這個話題現在到底是有多夯,前些日子的黃仁勳之亂相信大家還都記憶猶新。今天推薦一部影片主要是講述 AI、機器學習及深度學習的概念,內容簡明扼要並又帶點幽默元素,希望非理工背景的大家都可以初步了解 AI這個概念。
Thumbnail
在這個科技日新月異的時代,人工智慧投資熱潮席捲全球,吸引了無數投資者的目光。然而,科博工作室馬博泰提醒大家,AI投資熱潮並不一定能帶來金錢收益,相較之下,賣鏟子十字鎬等傳統行業的收益更為穩定。那麼,投資者該如何看待AI投資熱潮呢?本文將從美國加州淘金熱的歷史出發,探討AI投資熱潮背後的真相。
Thumbnail
幾天前Sundar Pichai與夥伴受訪,對人工智慧做了總整理,這四個重點,能幫助我們重溫人與AI的關係。
Thumbnail
廣告背後的惡意「潛伏者」,如點擊農場、惡意程式、仿真機器人所帶來的垃圾流量正在鯨吞蠶食行銷效益,為全球品牌與客戶帶來巨大威脅