美國大廠ML 糟糕infra系列:feature develope pipeline

閱讀時間約 5 分鐘

為什麼寫這篇

最近離開美國大廠,加入一家新公司,體驗到什麼是好的ML infra, 因為前東家雖然也是大科技,但infra奇爛無比

為了避免日後忘記,特別記錄一下上一家infra為什麼這麼爛

NOTE:這篇不是批評,而是以一個developer角度說出pain point,希望其他公司不要重蹈覆徹

feature store在AI角色?

先說說AI吧,AI在現實生活中,目前應用最多就是推薦系統,推薦系統顧名思義就是有任何ranking的部分,都可以用推薦系統,像是homepage內容排序,廣告排序

推薦系統內最重要的部分就是model,model可以預測使用者喜歡什麼,而要產生一個model最重要的部分就是feature, feature具體可以是內容的精彩度, 內容的品質,使用者偏好等等

feautre store就是存一堆feature的database,每當使用者來推薦系統,會去獲取相關feature,幫助model去產生推薦

機器學習工程師如何開發feature?

這邊不講如何開發feature store, 這通常是infra的事情, 可以把它當作key-value store就好

對於機器學習工程師(MLE)來說,每當要加入一個新的feature進去model,就需要開發feature pipeline, 具體做法就是ETL, 從幾個table讀資料,處理一下,輸入到feature store, 結束

ML infra讓開發這麼難(EI, PROD cluster)

如上所說就是寫個scala/spark/SQL來做ETL, BUT就是這個BUT

在我前東家有個很大的pain point就是EI跟prod是分開的, 真正需要的是PROD,但我們開發只能在EI上開發,你會問有什麼差,EI開發好, deploy 去prod不就好?

錯!錯!錯!在我前東家不是這一回事!先讓我說說

因為EI跟prod分開,所以source data也是分開!!!這是啥意思?這意思是假設你的pipeline需要讀table A,但table A在prod有data但是在EI沒data

讓要怎麽讓source有data?在我前東家有三個data cluster,彼此是分開的!兩個EI,一個prod. 你說為啥要兩個EI? 我不知道!一個EI for general HDFS,一個for feature store

所以需要從EI for general HDFS copy到EI for feature store,用cmd copy大概需要兩小時,copy好了之後,只能從pipeline去跑feature push!不能從cmd, 而要launch一個pipeline需要build, upload, run大概需要兩小時

說更詳細一點,理論上ETL應該在同一個cluster去跑,但因為featue push cluster不能處理processing(啥infra問題), 所以一個pipeline要在兩個cluster去跑,前半在cluster A, 後面(only push)在cluster B

feautre store在EI, prod cluster也不同,所以要創造兩次

總結一下

  1. 寫好ETL code, build, upload to two EI clusters(A,B) (2 hours for build, upload)
  2. 先跑cluster A pipeline 產生table 甲 on cluster A
  3. run cli to copy table 甲 on cluster A to table 甲 on cluster B
  4. 跑cluster B pipeline read table 甲, push to feature store on cluster B

以上是develop, 那要怎麼check data有進去? 理論上: 不能check!!!!!

what??? 不能check? why???? 因為是使用者data不能看!為了可以check

需要把data手動亂碼一下 還要approval 才可以check

還有另外一個case就是有個fake data要測試feature

你可以如上還是跑pipeline,但要很久,當然我們還有notebook, 可以生成fake data,但是notebook 要在cluster B上跑, 比較tricky是要生成schema, 那個infra internal schema超奇怪schema

另外每個cluster每天都會reset,都要重打密碼!不可以chrome存密碼!!!因為要密碼搭配VIP code(會refresh); 每個cluster都要打一次,所以一天用到四個cluster,要打四次.... 搭配有時候cluster平均一個月掛掉一次

總結

要澄清infra team也是很辛苦,會造成這現象很多時候是歷史因素,像是為啥這麼多cluster,還不相容, 公司內資安系統很很亂,光是帳號密碼就有三組,常常不知用哪個....

之後再打打其他HDFS差異吧










7會員
69內容數
這專題主要在記錄過去的旅遊心得
留言0
查看全部
發表第一個留言支持創作者!
矽谷jojo的沙龍 的其他內容
簡介 什麼是global entry? Global Entry是美國海關快速通道,可以直接透過機器檢查並完成入境手續,一來不用跟其他人大排長龍,而且不用被海關問問題,也極低機率會被帶去小黑屋 Global Entry 也含有 TSA Pre 機場快速安檢(出境/進入terminal)的功能
這篇主要是記錄了怎麼拿到車牌,由於上次買車很久而且又是買二手車,這是是跟dealer買新車,因為是deliver到我家,車商人根本不在現場,所以充滿疑惑,像是該不該去DMV註冊呢?之類的問題,也希望可以幫助到其他人
前言 這篇文章主要是分享meta 加入timeline,還有第一週心得
自從上個月買Tesla後寫了一篇心得文後,至今開了一個月,再來補充一些心得
在2024年4月底,筆者試駕了Tesla Model 3,發現避震效果改善、車內設施升級,並於試駕後即時下單購車。試駕過程中遇到小問題,但最終成功體驗了車輛。此外,提供了購車過程中的經驗和解答常見問題。總體而言,對Model 3的試駕和購車過程感到滿意,期待未來享受車輛帶來的便利和驚喜。
簡介 什麼是global entry? Global Entry是美國海關快速通道,可以直接透過機器檢查並完成入境手續,一來不用跟其他人大排長龍,而且不用被海關問問題
簡介 什麼是global entry? Global Entry是美國海關快速通道,可以直接透過機器檢查並完成入境手續,一來不用跟其他人大排長龍,而且不用被海關問問題,也極低機率會被帶去小黑屋 Global Entry 也含有 TSA Pre 機場快速安檢(出境/進入terminal)的功能
這篇主要是記錄了怎麼拿到車牌,由於上次買車很久而且又是買二手車,這是是跟dealer買新車,因為是deliver到我家,車商人根本不在現場,所以充滿疑惑,像是該不該去DMV註冊呢?之類的問題,也希望可以幫助到其他人
前言 這篇文章主要是分享meta 加入timeline,還有第一週心得
自從上個月買Tesla後寫了一篇心得文後,至今開了一個月,再來補充一些心得
在2024年4月底,筆者試駕了Tesla Model 3,發現避震效果改善、車內設施升級,並於試駕後即時下單購車。試駕過程中遇到小問題,但最終成功體驗了車輛。此外,提供了購車過程中的經驗和解答常見問題。總體而言,對Model 3的試駕和購車過程感到滿意,期待未來享受車輛帶來的便利和驚喜。
簡介 什麼是global entry? Global Entry是美國海關快速通道,可以直接透過機器檢查並完成入境手續,一來不用跟其他人大排長龍,而且不用被海關問問題
你可能也想看
Thumbnail
八十-二十法則提到,在多數生活的現象中,約80%的效果是來自於20%的原因,除了經濟學、學習理論外,這個法則同樣也可以應用在生活中的幸福感上。 我們需要認知到擁有的越多不一定會越快樂,反而有可能會因為無法專注在少數事物上而產生空虛、迷茫的感覺。「極簡」精神最重要的一點在於放下對於「多」的執著,將有
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
剛剛從阿姨那邊回家…我才發現到!這個軟體很久沒有用了!重新更新以後!發現新大陸!跟我那個時候的操作又差一大截了…就連網路上的舊知識,也完全要重新更新! 我發現手機、地點完全不一樣,而且我只有羨慕的份,少了很多部份後製成份,沒有像我一樣,換了四五支手機,每一隻都是入門機,而且學習後製只有一直哭的問題
Thumbnail
這篇文章談論了作者在專利產業工作的不順適,包括工作壓力大、遇到棘手客戶以及健康問題。作者在文章中傳達了對於工作的壓力情況,以及對於未來生活的期許和新嘗試。
Thumbnail
這是什麼大問題嗎?這樣就寫一篇文章,會不會太混了! 會! 其實蠻混的! 哈哈哈! 1.英文不好,乾脆用中文。就用微軟 Copilot 設計工具 的網址在此。好啦!
Thumbnail
好久沒回來這裡了。因為是家中長女,父親身障,不得不回到工程師身份工作。於去年經歷了一份主管很奇怪的公司工作(可以看我之前的文章"廢文-2")離開後,在年底應徵上了一家公司的後端工程師工作,在裡面待一直到現在(還會繼續待下去啦XD)。 今天因為身體不舒服向公司請假,也思考了現在的狀況以及未來的方向。
以前待過一家公司,他公司所有裡面的東西其實都是從中國批發來的電子產品,只是請對方印上自己的商標,就從掏寶的價格變成台灣品牌的價格,品質應該說還可以用,很多功能不能用,然後其實一點都不能做什麼?比一般在以前光華商場要買的大陸產品還要爛。 那家公司不知道有多少人因為產品太爛生氣而告過他們,
分享最近遇到的一些人事物的小故事。最近,有同事在工作十幾年後決定放棄科技業轉換跑道,投入傳產,例如裝潢工作,因為覺得科技業的壓力太大,每天的負擔太重,令人苦不堪言。我個人會考慮轉換職業,但不會選擇與我目前學經歷無關的工作,因為時間是非常寶貴的。   我想你大家可能不懂這件事情,我在看了老高
Thumbnail
八十-二十法則提到,在多數生活的現象中,約80%的效果是來自於20%的原因,除了經濟學、學習理論外,這個法則同樣也可以應用在生活中的幸福感上。 我們需要認知到擁有的越多不一定會越快樂,反而有可能會因為無法專注在少數事物上而產生空虛、迷茫的感覺。「極簡」精神最重要的一點在於放下對於「多」的執著,將有
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
剛剛從阿姨那邊回家…我才發現到!這個軟體很久沒有用了!重新更新以後!發現新大陸!跟我那個時候的操作又差一大截了…就連網路上的舊知識,也完全要重新更新! 我發現手機、地點完全不一樣,而且我只有羨慕的份,少了很多部份後製成份,沒有像我一樣,換了四五支手機,每一隻都是入門機,而且學習後製只有一直哭的問題
Thumbnail
這篇文章談論了作者在專利產業工作的不順適,包括工作壓力大、遇到棘手客戶以及健康問題。作者在文章中傳達了對於工作的壓力情況,以及對於未來生活的期許和新嘗試。
Thumbnail
這是什麼大問題嗎?這樣就寫一篇文章,會不會太混了! 會! 其實蠻混的! 哈哈哈! 1.英文不好,乾脆用中文。就用微軟 Copilot 設計工具 的網址在此。好啦!
Thumbnail
好久沒回來這裡了。因為是家中長女,父親身障,不得不回到工程師身份工作。於去年經歷了一份主管很奇怪的公司工作(可以看我之前的文章"廢文-2")離開後,在年底應徵上了一家公司的後端工程師工作,在裡面待一直到現在(還會繼續待下去啦XD)。 今天因為身體不舒服向公司請假,也思考了現在的狀況以及未來的方向。
以前待過一家公司,他公司所有裡面的東西其實都是從中國批發來的電子產品,只是請對方印上自己的商標,就從掏寶的價格變成台灣品牌的價格,品質應該說還可以用,很多功能不能用,然後其實一點都不能做什麼?比一般在以前光華商場要買的大陸產品還要爛。 那家公司不知道有多少人因為產品太爛生氣而告過他們,
分享最近遇到的一些人事物的小故事。最近,有同事在工作十幾年後決定放棄科技業轉換跑道,投入傳產,例如裝潢工作,因為覺得科技業的壓力太大,每天的負擔太重,令人苦不堪言。我個人會考慮轉換職業,但不會選擇與我目前學經歷無關的工作,因為時間是非常寶貴的。   我想你大家可能不懂這件事情,我在看了老高