解密 AI 與資料科學 (一) : AI 開發鏈, 跨領域溝通 & 最具未來性的職業

閱讀時間約 4 分鐘

raw-image


經過一年多洗禮,大家對 AI 認識不少,很多人更好奇,資料/ AI領域在做什麼?如何學習?相關底層技術有什麼。為回應這些問題,我寫下這一系列文章,將由淺入深提介紹資料科學領域、分工、使用技術、實用問題,並推薦學習教材﹝經本人學習與實戰經驗篩選!﹞。本文是系列文第一篇,介紹「資料科學的領域與分工」。

 

|AI 價值鏈:一條比想像中難走的路

可能是出於對技術的樂觀,一般情況下﹝可能不少業界和普遍人士﹞,人們總感覺好像把 AI 融入組織,就能很快產生豐厚的價值。可是從資料到產生價值這個過程比想像的更久、更難,需要許多資料科學技術密切投入,才可能產生研發的價值。

 

AI 價值鏈

AI 價值鏈


一、首先,就資料收集來說就是一門大課題。資料的選擇密切與研發目標相關。如果你想關注農產品的價格,你需要考量不同層級影響指標,像是市場事件、競合國的供應鏈,或總體經濟指標等。假如是一位健身教練,他蒐集偏好可能傾向用戶的健身頻率、健身菜單、飲食追蹤或是學員失聯多久。更有趣的是,即便是婚姻市場也能數據化,例如夫妻雙方人格測試、家庭是否單親,甚至有沒有經常上教會等等。總之能收集的有許多,有時候也很吃創意。

 

同時,這個環節也與「資料工程」密切相關,涉及所收集的資料用什麼方式管理,如何設計資料庫,還有打造有效率的資料提取流程等工程事項。我也見過有些組織不懷目的性的收集數據,也許只是為了建檔,或是加快數位化帶來的方便而已;也有一些組織有想法,但是不知道要收集什麼數據,或是因為隱私安全疑慮而無法起步。

 

二、有了資料以後,才是 AI﹝或機器學習﹞發揮的地方。這個步驟是資料科學家的主秀,涉及資料的探索、清洗、數據操作和 AI 模型訓練,非常細節。這個部分既看經驗也看創意,研發人員會探索資料的性質,並使用許多數學或演算方法。目的是為了更認識數據,並設計出能為 AI 演算法所用的數據模式。經過一番的訓練、測試與教調後產生出模型。而另一方面,資料分析師也可以在資料與資料流完整的環境下進行數據分析,產生商業洞見與決策訊息。

 

三、生出來的模型用來實戰預測,部署到機器或雲端以監控與實用,做 machine learning operation 用途。模型的生成只是個通泛的概念,可能是一個模型也可能是一群模型,可能是機器學習演算法,也可能是強化學習。因應目標不同,有不同的方法、準則、優化和篩選機制。總之這段只是要說明,AI 的價值鏈本身涉及研究目標及其息息相關的技術操作,有通用的概念,卻也需要case by case細微調整。

 

|數據科學領域的腳色與分工

先奉上一張圖,我覺得它把整個資料科學的工作流,講解得極為清楚。



本小節跟前一節是可以呼應的。圖中的「取得資料」,對應到前一節的第一點「資料收集」,衍伸出資料工程師、資料庫工程師和爬蟲工程師職業。從「資料前處理」到「模型評估」則對應到前一節第二點「AI 模型訓練」,其涉及到多種職業,他們有的善於視覺化和提出建議,有的善於使用算法、統計工具和軟體架構。而近年有名的職業「資料科學家」主要就在這個範圍活動。最後的「決策應用」則對應前一節的第三點「實戰應用」,圖中這一環節,水平與垂直分別對應涉及不同度的技術與決策洞見,而有了架構師和分析師兩個職位。

 

從這張圖其實看得出來,第一個是大家各司其職,但是卻互有交集。工程師、科學家、統計專家和分析師各有所長卻也互有交際;再來是職位的守備範圍很浮動,像是作為一個資料工程師,你可以橫向往圖中尺度的右邊走,透過數據處理提升領域知識;資料科學家也可以增強技術底,縱向的往軟體底層和後端走,既生成資料也可以設計架構。

 

對於職涯選擇的 “Job description” 好奇或困惑的,一定要多看幾次這張圖,從流水線分工的角度,理解他們的差異與交集。


所以分工與產業是非常複雜的。你真的能說讀什麼科系是有用,什麼沒用;什麼跟 AI 有關,什麼無關嗎?一個有政治學專業的人,可以為工程團隊提供領域見解,再加上一點統計學,其實他也可以跟尺度右邊的應用端進行技術溝通。相反地,誰說金融只能給財金人士搞呢?財務工程使用的模型如今也仰賴輝達的生態系﹝CUDA﹞進行模擬運算;衍生性金融商品預測,也常引入最優化的概念,這些又豈止是文組的事情──華爾街很多物理跟數學的人,有聽過吧?

 

我的核心精神就是廣泛學習,強化跨領域合作基礎實力。只要環境一直在擴張,一定有專屬我們的位置;即便環境不好,你也不會挫敗。


這篇就先到這,下一篇我們要講 AI 的類型與發揮的戰場。

14會員
14內容數
大數據意味著什麼?數據科學背後有怎樣的mind set和技術?數據科學家又做些什麼?這些科技/技術,帶給我們什麼生活上和人文上的省思?這個專題會橫跨這些彼此相關的面向,避開生澀的專業詞彙,探索這些事情背後的樣貌。應該會是有趣的知識和想法分享﹝笑﹞
留言0
查看全部
發表第一個留言支持創作者!
Darren的沙龍 的其他內容
魔球記載MLB奧克蘭運動家隊的真實故事。該隊以小搏大,用數據思維選出一批從未被看好的球員,打出最瘋狂的佳績。 這本是經典老書了,書中細節大家已多有討論,我只著重在「統計數據」與「新舊觀念衝突」兩部分。透過魔球的精神,反思今天科技時代下「人」或「人才」的價值,我也會表達我對一個大趨勢形成的看法。
正文1,724字,主要跟你分享未來 AI 變更強更效率的兩個層面──數據與模型框架。你會從實務者的觀點,知道數據跟 AI (或機器學習模型) 表現間的關係;了解 ChatGPT 為什麼有運算資源的困擾;同時,你也會看到目前最新改善 AI 運算速度的技術發表。
去年錄製好的線上課程,今年終於上架了! 非常慚愧,在方格子平台還沒寫幾篇內容,就要先宣傳自己的課程。不過現在67折優惠,宣傳還是有必要的吧,哈!我就維持喜寫論述的習性,介紹一下這門課程,以及我在這個領域──金融商品價格預測──所看見的狀況。 好奇的可以當補充課外知識,有興趣的可以看文末的課程連結。
本文回答幾個問題:(一) 什麼叫做湧現;(二)湧現是什麼現象;(三)為什麼我們造不出自己的超級 AI。看完後,你會理解現在 AI 的現象跟趨勢、一些技術與專有名詞,像是參數、大型機構與他們模型的名字。
這篇來寫,嘗試用GPT4解決工作中,一個讓我渾身難受的問題。 任務說明 我要做的事情是,把word檔中表格的部分資訊擷取出來。下圖的示範表格即是一例。 我需要存取表格中特定元素資訊,例如 Net Calorific Value,我得存下Min. 4,750這個訊息,同理可知,Total Sulfur
在英國與老師對嗆?! 先說個故事吧,以前在英國讀書的時候,去選修了一堂數學系的課。 那位老師嚴格要求,選修的學生必須是數學系的學生。如果不是,那學生必須說明自己擁有夠強的數學能力。 我不是數學系的學生,可我終究是吃硬柿子的人。因為我知道,若想加強數學的底子,就必須到這裡來──後來還是去上課了。 上了
魔球記載MLB奧克蘭運動家隊的真實故事。該隊以小搏大,用數據思維選出一批從未被看好的球員,打出最瘋狂的佳績。 這本是經典老書了,書中細節大家已多有討論,我只著重在「統計數據」與「新舊觀念衝突」兩部分。透過魔球的精神,反思今天科技時代下「人」或「人才」的價值,我也會表達我對一個大趨勢形成的看法。
正文1,724字,主要跟你分享未來 AI 變更強更效率的兩個層面──數據與模型框架。你會從實務者的觀點,知道數據跟 AI (或機器學習模型) 表現間的關係;了解 ChatGPT 為什麼有運算資源的困擾;同時,你也會看到目前最新改善 AI 運算速度的技術發表。
去年錄製好的線上課程,今年終於上架了! 非常慚愧,在方格子平台還沒寫幾篇內容,就要先宣傳自己的課程。不過現在67折優惠,宣傳還是有必要的吧,哈!我就維持喜寫論述的習性,介紹一下這門課程,以及我在這個領域──金融商品價格預測──所看見的狀況。 好奇的可以當補充課外知識,有興趣的可以看文末的課程連結。
本文回答幾個問題:(一) 什麼叫做湧現;(二)湧現是什麼現象;(三)為什麼我們造不出自己的超級 AI。看完後,你會理解現在 AI 的現象跟趨勢、一些技術與專有名詞,像是參數、大型機構與他們模型的名字。
這篇來寫,嘗試用GPT4解決工作中,一個讓我渾身難受的問題。 任務說明 我要做的事情是,把word檔中表格的部分資訊擷取出來。下圖的示範表格即是一例。 我需要存取表格中特定元素資訊,例如 Net Calorific Value,我得存下Min. 4,750這個訊息,同理可知,Total Sulfur
在英國與老師對嗆?! 先說個故事吧,以前在英國讀書的時候,去選修了一堂數學系的課。 那位老師嚴格要求,選修的學生必須是數學系的學生。如果不是,那學生必須說明自己擁有夠強的數學能力。 我不是數學系的學生,可我終究是吃硬柿子的人。因為我知道,若想加強數學的底子,就必須到這裡來──後來還是去上課了。 上了
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
在今年的COMPUTEX展前演講中,Nvidia的首席執行官黃仁勳宣布了一個令人震驚的消息:Nvidia將從2025年開始每年更新其AI芯片。這一舉動無疑預示著一場新的工業革命正式拉開了序幕。
Thumbnail
本文揭示當前工業領域的一場無聲革命:智慧製造。在引言中,我們探討了智慧製造如何開啟生產力新紀元,隨後深入分析大數據如何加速生產過程中的創新與效率,成為本次革命的核心動力。從學術研究到現實應用,本文探討了智慧製造領域的發展脈絡,以及學界與業界共同推進的不可逆轉動能。
Thumbnail
ChatGPT 近期對 Plus 用戶釋出大量新功能,其中之一就是「Advanced Data Analysis」。許多人評斷,未來都可能被「不會寫程式」的人取代,因為人人都可以像資料科學家一樣,自由自在處理數據!相信許多讀者對 Plus 功能仍在觀望,畢竟所費不貲。筆者在這邊就示範一些功能給大家!
Thumbnail
Chatlize.ai 是由一名生物資訊學者 Steven Xijin Ge 所做,透過簡易的介面可以讓使用者輕鬆透過指令(prompt)的方式就可以輕鬆處理數據。結果不僅會直接提供程式原始碼、並執行,若有視覺化需求,它也會幫你完整視覺化。
Thumbnail
親愛的讀者朋友們, 大家好!近年來,人工智慧(AI)已經成為我們生活中不可或缺的一部分,無論是在科技、醫療、教育還是藝術領域,AI的應用無處不在。在這篇文章中,我們將帶您深入探索AI引領下的未來奇幻世界,揭示一個充滿可能性和挑戰的全新時代。 1. 創新的藝術革命:AI藝術家的誕生 從電影生成
Thumbnail
一直以來,我們在浩瀚的宇宙中尋找地外生命的任務都遇到一個重大的挑戰,那就是我們無法有效處理天文望遠鏡每15秒就產生的2GB數據。但現在,隨著AI的興起,我們能夠更有效地分析這些龐大的資料。
Thumbnail
相信大家都知道AI這個話題現在到底是有多夯,前些日子的黃仁勳之亂相信大家還都記憶猶新。今天推薦一部影片主要是講述 AI、機器學習及深度學習的概念,內容簡明扼要並又帶點幽默元素,希望非理工背景的大家都可以初步了解 AI這個概念。
Thumbnail
在這個科技日新月異的時代,人工智慧投資熱潮席捲全球,吸引了無數投資者的目光。然而,科博工作室馬博泰提醒大家,AI投資熱潮並不一定能帶來金錢收益,相較之下,賣鏟子十字鎬等傳統行業的收益更為穩定。那麼,投資者該如何看待AI投資熱潮呢?本文將從美國加州淘金熱的歷史出發,探討AI投資熱潮背後的真相。
Thumbnail
幾天前Sundar Pichai與夥伴受訪,對人工智慧做了總整理,這四個重點,能幫助我們重溫人與AI的關係。
Thumbnail
廣告背後的惡意「潛伏者」,如點擊農場、惡意程式、仿真機器人所帶來的垃圾流量正在鯨吞蠶食行銷效益,為全球品牌與客戶帶來巨大威脅
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
在今年的COMPUTEX展前演講中,Nvidia的首席執行官黃仁勳宣布了一個令人震驚的消息:Nvidia將從2025年開始每年更新其AI芯片。這一舉動無疑預示著一場新的工業革命正式拉開了序幕。
Thumbnail
本文揭示當前工業領域的一場無聲革命:智慧製造。在引言中,我們探討了智慧製造如何開啟生產力新紀元,隨後深入分析大數據如何加速生產過程中的創新與效率,成為本次革命的核心動力。從學術研究到現實應用,本文探討了智慧製造領域的發展脈絡,以及學界與業界共同推進的不可逆轉動能。
Thumbnail
ChatGPT 近期對 Plus 用戶釋出大量新功能,其中之一就是「Advanced Data Analysis」。許多人評斷,未來都可能被「不會寫程式」的人取代,因為人人都可以像資料科學家一樣,自由自在處理數據!相信許多讀者對 Plus 功能仍在觀望,畢竟所費不貲。筆者在這邊就示範一些功能給大家!
Thumbnail
Chatlize.ai 是由一名生物資訊學者 Steven Xijin Ge 所做,透過簡易的介面可以讓使用者輕鬆透過指令(prompt)的方式就可以輕鬆處理數據。結果不僅會直接提供程式原始碼、並執行,若有視覺化需求,它也會幫你完整視覺化。
Thumbnail
親愛的讀者朋友們, 大家好!近年來,人工智慧(AI)已經成為我們生活中不可或缺的一部分,無論是在科技、醫療、教育還是藝術領域,AI的應用無處不在。在這篇文章中,我們將帶您深入探索AI引領下的未來奇幻世界,揭示一個充滿可能性和挑戰的全新時代。 1. 創新的藝術革命:AI藝術家的誕生 從電影生成
Thumbnail
一直以來,我們在浩瀚的宇宙中尋找地外生命的任務都遇到一個重大的挑戰,那就是我們無法有效處理天文望遠鏡每15秒就產生的2GB數據。但現在,隨著AI的興起,我們能夠更有效地分析這些龐大的資料。
Thumbnail
相信大家都知道AI這個話題現在到底是有多夯,前些日子的黃仁勳之亂相信大家還都記憶猶新。今天推薦一部影片主要是講述 AI、機器學習及深度學習的概念,內容簡明扼要並又帶點幽默元素,希望非理工背景的大家都可以初步了解 AI這個概念。
Thumbnail
在這個科技日新月異的時代,人工智慧投資熱潮席捲全球,吸引了無數投資者的目光。然而,科博工作室馬博泰提醒大家,AI投資熱潮並不一定能帶來金錢收益,相較之下,賣鏟子十字鎬等傳統行業的收益更為穩定。那麼,投資者該如何看待AI投資熱潮呢?本文將從美國加州淘金熱的歷史出發,探討AI投資熱潮背後的真相。
Thumbnail
幾天前Sundar Pichai與夥伴受訪,對人工智慧做了總整理,這四個重點,能幫助我們重溫人與AI的關係。
Thumbnail
廣告背後的惡意「潛伏者」,如點擊農場、惡意程式、仿真機器人所帶來的垃圾流量正在鯨吞蠶食行銷效益,為全球品牌與客戶帶來巨大威脅