SageMaker-我該使用Data Wrangler嗎

閱讀時間約 2 分鐘

一.引言

  在上篇我們已經學習到怎麼在 SageMaker 上進行簡易訓練,可以說是踏入了第一步, SageMaker 提供了不少工具用來協助使用者能夠更快速的進行訓練,其中 Data Wrangler 便是用於訓練資料處理的工具,那麼,他好用嗎?必須用嗎?

二.Data Wrangler 介紹

  1. 視覺化數據準備和處理
    • Data Wrangler 提供了直觀的用戶界面,允許用戶拖放操作來進行數據清理、轉換和特徵工程。
    • 可以在介面中查看數據分佈、統計信息和數據質量報告。
  2. 集成多種數據來源
    • 支持從多種數據來源導入數據,包括 Amazon S3、Redshift、RDS、Snowflake 等。
    • 可以輕鬆合併和連接多個數據源。
  3. 多樣的數據轉換操作
    • 提供多種內建的數據轉換和特徵工程操作,如數據篩選、標籤編碼、標準化、缺失值處理等。
    • 支持自定義的 Python 或 SQL 腳本進行高級數據處理。
  4. 自動化和工作流集成
    • 可以將數據準備流程導出為 SageMaker Processing 作業,從而輕鬆集成到機器學習工作流中。
    • 支持自動化數據準備管道,並與 SageMaker 其他功能無縫集成,如訓練和部署。
  5. 可重複和共享
    • 數據處理流程可以保存並重用,還可以與團隊成員共享。

從上方特點來看,適用場景總結如下

  • 非技術用戶或數據科學家希望使用可視化工具進行數據準備和特徵工程。
  • 需要從多種數據源導入和合併數據。
  • 需要快速迭代和可視化數據準備步驟。
  • 需要與 SageMaker 的其他功能無縫集成。

三.原來的數據處理方法

  在沒上雲端之前,進行資料前處理以Pytorch框架為例通常使用下列庫處理不同類型的資料 :

  • 表格資料 : 使用 pandas 進行資料處理和清理,使用 sklearn.preprocessing 進行標準化和類別編碼
  • 影像資料: 使用 torchvision.transform 進行模組化的資料前處理
  • 文字資料 : 使用 torchtext 進行資料集處理和詞彙表建立,使用 transformers 庫進行預訓練模型的應用
  • 聲音資料:使用 torchaudio 進行音訊處理和轉換,使用 librosa 進行特徵提取

  這些庫可以靈活的在訓練前甚至訓練途中實時的對資料進行處理並且與Pytorch的DataLoader快速銜接。

四.總結

  比較兩種方法,SageMaker Data 有優秀的可視化工具,且與 AWS 生態相容性好,至於這些專業的Python庫有著良好的靈活性,且訓練時通常會一併使用,所以以我的角度而言,SageMaker Data 提供了一個好方法能夠減輕AI工程師的負擔,能夠將一部分資料前處理從工作中無痛分割出來交給他人處理,使其能夠更專心地面對網路訓練中的其他問題。

8會員
21內容數
AI、電腦視覺、圖像處理、AWS等等持續學習時的學習筆記,也包含一些心得,主要是幫助自己學習,若能同時幫助到不小心來到這裡的人,那也是好事一件 : )
留言0
查看全部
發表第一個留言支持創作者!
貓貓學習筆記 的其他內容
  上回練習了一個官方示例,但其中對於一些細節沒有練習到的感覺,這次我們實際將之前練習的風格轉換訓練推上去看看,看是否能體驗到更多細節。
  先前在中國的工作環境相對封閉,並沒有使用雲端產品進行AI訓練及部屬,只有在本機端進行建置調試,但如今回到台灣了,該是時候接觸一下這些雲端的 AI 服務,而在 AWS 中,深度學習相關的服務鈴瑯滿目,但聽到有人提到 SageMaker ,這次就來看看它是個什麼樣的服務吧。
  經過三篇的進展,我們目前實作的網路已經能做到同時訓練多種風格,且後續可以直接進行轉換,不用重新訓練,但是這種方法畢竟還是受到了預訓練的風格制約,無法跳脫出來,那麼有什麼辦法能夠讓他對於沒學過的風格也有一定的反應能力呢?
上篇我們已經把風格融入在一個網路之中,實現了訓練一次就可以轉換不同的圖片成我們訓練的風格,但是這樣還不夠,因為這樣每個風格都得訓練一個網路來轉換,太浪費了,那麼,我們有沒有辦法在同一個網路中訓練多個風格呢?
在第一篇我講到一開始的圖像風格轉換,每產生一張圖片都得重新訓練,這對於使用上難免綁手綁腳,所以理所當然的下一步就是要解決這個問題,看看能不能只要訓練一次,就可以重複使用。
  最近遇到一些人想做音訊的合成,我回答他或許可以從圖像風格轉換中找到些靈感,我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何,對於內部訓練邏輯及結構並沒有認真的去了解,現在剛好趁此機會好好的學習一下。
  上回練習了一個官方示例,但其中對於一些細節沒有練習到的感覺,這次我們實際將之前練習的風格轉換訓練推上去看看,看是否能體驗到更多細節。
  先前在中國的工作環境相對封閉,並沒有使用雲端產品進行AI訓練及部屬,只有在本機端進行建置調試,但如今回到台灣了,該是時候接觸一下這些雲端的 AI 服務,而在 AWS 中,深度學習相關的服務鈴瑯滿目,但聽到有人提到 SageMaker ,這次就來看看它是個什麼樣的服務吧。
  經過三篇的進展,我們目前實作的網路已經能做到同時訓練多種風格,且後續可以直接進行轉換,不用重新訓練,但是這種方法畢竟還是受到了預訓練的風格制約,無法跳脫出來,那麼有什麼辦法能夠讓他對於沒學過的風格也有一定的反應能力呢?
上篇我們已經把風格融入在一個網路之中,實現了訓練一次就可以轉換不同的圖片成我們訓練的風格,但是這樣還不夠,因為這樣每個風格都得訓練一個網路來轉換,太浪費了,那麼,我們有沒有辦法在同一個網路中訓練多個風格呢?
在第一篇我講到一開始的圖像風格轉換,每產生一張圖片都得重新訓練,這對於使用上難免綁手綁腳,所以理所當然的下一步就是要解決這個問題,看看能不能只要訓練一次,就可以重複使用。
  最近遇到一些人想做音訊的合成,我回答他或許可以從圖像風格轉換中找到些靈感,我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何,對於內部訓練邏輯及結構並沒有認真的去了解,現在剛好趁此機會好好的學習一下。
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
2024春夏高級訂製服系列時裝周模特兒名單中,台灣模特兒再添一位,那便是過去主要據點為米蘭的張雨宸YuChen Chang。
Thumbnail
Amazon SageMaker Canvas 是一項無須程式碼機器學習 (ML) 服務,可以幫助商業分析師透過機器學習(ML)在幾分鐘內從數千個文件、圖像和文字行中產生見解。 可以隨時存取即用型模型,建立自訂文字和圖像分類模型以及先前支援的表格資料自訂模型,所有這些操作都無需具備機器學習經驗,也無
Thumbnail
前幾個禮拜,AWS 舉行 Startup Day Taiwan。想當然爾,最熱門的主題非生成式 AI (Generative AI) 莫屬。既然 AWS 有現成的工具,身為一名工程師,自然看看無妨,這篇文章算是新手開箱文,會說明如何部署一套基礎模型,並使用 AWS SDK 與其互動。
Thumbnail
前言 我在工作中沒有什麼機會接觸到機器學習,學生時期也沒有學習過相關知識。 作為一個業餘小白,我對機器學習非常感興趣。在自學的過程中,我逐漸意識到利用機器學習可以做很多有趣的事情。 因此,我決定嘗試使用 AWS SageMaker JumpStart 來實驗文字生成式繪圖 AI ,以了解機
Thumbnail
我們這篇文章的目的是希望透過了解Code Interpreter的原理是什麼,進而去理解Code Interpreter的能耐,再透過理解這個工具可以做到什麼,來反思我們該把那些工作交給這個全新的AI應用工具,重點是那些功能是過去做不到但是現在能夠做到的了?
Thumbnail
這篇文章寫給想使用數位筆記軟體實作卡片盒筆記法的人。因為多數人都會在同一個軟體中使用多種筆記方法,很容易讓檔案最後攪和在一起。我會分享 ACCESS 分類法,可以讓你的筆記檔案不再混亂。
Thumbnail
酷兒不是只有指向性別,酷兒是一個你看它多大,它就有多遼闊的概念。在我們生存的時代裡,差異已經逐漸被擁抱、被認同與被展現,且因為這些差異的存在,讓我們學習到愛、尊重與包容這些美好的信念。
Thumbnail
網路交流的運作模式在近幾年中發生了轉變,社交媒體和各種自訂化空間紛紛興起。在同一時間,網路和現實的分界線開始模糊,而這些連帶影響了我們在真實世界對他人以及他們的意見的態度。
Thumbnail
由於前段時間台灣金管會宣布eToro違法,所以正在使用eToro投資的人覺得很不安,原本要使用eToro投資的人也陷入觀望。 滿多人也一直私我,問可不可以使用eToro投資。 到底eToro能不能用,也並不是我說了算,因為我並不代表任何監管部門,所以我在這邊提供幾個客觀事實,供你參考是否要使用。
Thumbnail
「這世上的女人從未意識到她們擁有的力量....我下一次再墜入愛河時,我 會張大眼睛做出聰明的選擇。我會先確定那個女孩愛我比我愛她多一些。 」西羅是在乎的,她從沒有給過他的暗戀相對的回應,可是,親眼看見她跟神父「在一起」,西羅心碎了,未來幾年都還是會隱隱作痛.....
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
2024春夏高級訂製服系列時裝周模特兒名單中,台灣模特兒再添一位,那便是過去主要據點為米蘭的張雨宸YuChen Chang。
Thumbnail
Amazon SageMaker Canvas 是一項無須程式碼機器學習 (ML) 服務,可以幫助商業分析師透過機器學習(ML)在幾分鐘內從數千個文件、圖像和文字行中產生見解。 可以隨時存取即用型模型,建立自訂文字和圖像分類模型以及先前支援的表格資料自訂模型,所有這些操作都無需具備機器學習經驗,也無
Thumbnail
前幾個禮拜,AWS 舉行 Startup Day Taiwan。想當然爾,最熱門的主題非生成式 AI (Generative AI) 莫屬。既然 AWS 有現成的工具,身為一名工程師,自然看看無妨,這篇文章算是新手開箱文,會說明如何部署一套基礎模型,並使用 AWS SDK 與其互動。
Thumbnail
前言 我在工作中沒有什麼機會接觸到機器學習,學生時期也沒有學習過相關知識。 作為一個業餘小白,我對機器學習非常感興趣。在自學的過程中,我逐漸意識到利用機器學習可以做很多有趣的事情。 因此,我決定嘗試使用 AWS SageMaker JumpStart 來實驗文字生成式繪圖 AI ,以了解機
Thumbnail
我們這篇文章的目的是希望透過了解Code Interpreter的原理是什麼,進而去理解Code Interpreter的能耐,再透過理解這個工具可以做到什麼,來反思我們該把那些工作交給這個全新的AI應用工具,重點是那些功能是過去做不到但是現在能夠做到的了?
Thumbnail
這篇文章寫給想使用數位筆記軟體實作卡片盒筆記法的人。因為多數人都會在同一個軟體中使用多種筆記方法,很容易讓檔案最後攪和在一起。我會分享 ACCESS 分類法,可以讓你的筆記檔案不再混亂。
Thumbnail
酷兒不是只有指向性別,酷兒是一個你看它多大,它就有多遼闊的概念。在我們生存的時代裡,差異已經逐漸被擁抱、被認同與被展現,且因為這些差異的存在,讓我們學習到愛、尊重與包容這些美好的信念。
Thumbnail
網路交流的運作模式在近幾年中發生了轉變,社交媒體和各種自訂化空間紛紛興起。在同一時間,網路和現實的分界線開始模糊,而這些連帶影響了我們在真實世界對他人以及他們的意見的態度。
Thumbnail
由於前段時間台灣金管會宣布eToro違法,所以正在使用eToro投資的人覺得很不安,原本要使用eToro投資的人也陷入觀望。 滿多人也一直私我,問可不可以使用eToro投資。 到底eToro能不能用,也並不是我說了算,因為我並不代表任何監管部門,所以我在這邊提供幾個客觀事實,供你參考是否要使用。
Thumbnail
「這世上的女人從未意識到她們擁有的力量....我下一次再墜入愛河時,我 會張大眼睛做出聰明的選擇。我會先確定那個女孩愛我比我愛她多一些。 」西羅是在乎的,她從沒有給過他的暗戀相對的回應,可是,親眼看見她跟神父「在一起」,西羅心碎了,未來幾年都還是會隱隱作痛.....