【AI 人工智慧】特徵工程

更新於 發佈於 閱讀時間約 2 分鐘
特徵工程
在機器學習裡面,為了要追求更好的表現,我們除了要選出最適當的演算法來應對不同場景外,同時,在將原始資料蒐集好後,我們該如何從中萃取出重要且有用的資訊,是非常重要的一件事情,這就是所謂的”特徵工程”,今天我們就來針對這個主題談談吧!
所謂的”特徵工程”,指的是將原始資料裡重要的特徵抽取出來,而被抽取出來的特徵可以很好的描述原始資料,並進而使整個機器學習的演算法有更好的表現,這就是特徵工程所期望達到之目的。
而在執行面上,這樣一個流程往往需要大量的領域專家(domain expert)以及領域知識(domain knowledge),因為唯有對某特定領域有深入了解的人,才容易找出資料裡重要的特徵。
一般來說,特徵工程不只非常倚靠經驗,它也是個非常花時間以及勞力的一個過程(*),但這也是整個AI系統能否表現的比其他系統出色的關鍵點之一,有好的特徵工程,不只能提高準確度,也可能大大降低模型複雜度並減少所需要的電腦資源。
那麼我們要如何去學習這樣一個很吃經驗的技巧呢?其實在很多數據比賽平台上面,如Kaggle、KDD,有著各式各樣不同領域的資料集,同時也有許多高手在上面分享許多他們多年特徵工程之技巧,或許特徵工程這門學問無法有系統性的成為一本教科書,但我們可以藉由大量去閱讀不同專家的小技巧從中學習,我想這是增進特徵工程功力的不二法門之一吧!
最後,我想要補充的是一個在資料領域裡常被流傳的一段話,“數據和特徵決定了機器學習的上限,而模型和算法只是逼近這個上限而已”(*),這段話其實點出了數據以及特徵這兩個因素對導入AI之重要性,也是在實務上往往會被忽略的細節之一。
(*)根據資料顯示,這個過程可能長達整個專案一半的時間
(*)原文為data and characteristics determine the upper limit of machine learning, and models and algorithms just approach this upper limit.
*本文由知名AI講師-Isaac Lee 李厚均所撰寫
文章轉載自我們共同經營的粉絲頁-小李談數智https://www.facebook.com/isaac60103
更多圖解內容可以到 耀西圖像視覺化教室看看https://www.facebook.com/YoshiGraphics
即將進入廣告,捲動後可繼續閱讀
為什麼會看到廣告
avatar-img
11會員
33內容數
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Liao Yoshi的沙龍 的其他內容
隨著FinTech熱潮興起,人工智慧如何應用在金融領域往往是許多人關注的焦點之一。由於金融業的資料量非常的大,使得能導入的應用也非常多元,今天我們來介紹一個AI在金融領域之應用:機器人理財。
儘管大家對於人工智慧各種面向有著非常多不同的看法,但若說到人工智慧實力的劃分,一般我們常把它分成三個等級,狹義人工智慧、廣義人工智、以及超級人工智慧...
儘管深度學習這陣子非常的成功,效果也非常的好, 但每次提到它美中不足的地方時,可解釋性總是被拿來評論一番。今天,我們來針對模型的”可解釋性”這樣一個議題做深入的討論。所謂的「可解釋性」,就是當人工智慧演算法做決策的時候,我們是否能夠清楚了解為什麼電腦會做這樣一個決策以及判斷...
在雙11節慶,大家是否已經準備要好好血拼一番了呢?在這特別的日子裡,不知道有沒有人注意到,為了讓消費者有更好的體驗,不少廠商、送貨人員、工程師等可說是忙得不可開交呢!有鑑於此,電商龍頭阿里巴巴便想要去找尋增加每個環節效率的方法,而當中最著名的例子之一,莫過於他們將AI的技術...
今天我們來談談什麼叫作「邊緣運算」(Edge computing)? 在傳統情況下,我們常將各式各樣的感應器佈在不同應用中並隨時把所有的資料上傳至雲端伺服器做處理。然而,網路的傳輸需要時間,所以在許多被要求低延遲的應用當中,這樣的架構不一定適合...
人工智慧近年來的應用可說是越來越多元了,不同的產業紛紛開始投入相關的資源來做研究,許多人可能認為AI只與科技業或者是軟體產業有關係,但其實AI對於硬體製造業也是有所影響的,今天我們就來討論一下人工智慧在硬體製造業所帶來的應用吧!
隨著FinTech熱潮興起,人工智慧如何應用在金融領域往往是許多人關注的焦點之一。由於金融業的資料量非常的大,使得能導入的應用也非常多元,今天我們來介紹一個AI在金融領域之應用:機器人理財。
儘管大家對於人工智慧各種面向有著非常多不同的看法,但若說到人工智慧實力的劃分,一般我們常把它分成三個等級,狹義人工智慧、廣義人工智、以及超級人工智慧...
儘管深度學習這陣子非常的成功,效果也非常的好, 但每次提到它美中不足的地方時,可解釋性總是被拿來評論一番。今天,我們來針對模型的”可解釋性”這樣一個議題做深入的討論。所謂的「可解釋性」,就是當人工智慧演算法做決策的時候,我們是否能夠清楚了解為什麼電腦會做這樣一個決策以及判斷...
在雙11節慶,大家是否已經準備要好好血拼一番了呢?在這特別的日子裡,不知道有沒有人注意到,為了讓消費者有更好的體驗,不少廠商、送貨人員、工程師等可說是忙得不可開交呢!有鑑於此,電商龍頭阿里巴巴便想要去找尋增加每個環節效率的方法,而當中最著名的例子之一,莫過於他們將AI的技術...
今天我們來談談什麼叫作「邊緣運算」(Edge computing)? 在傳統情況下,我們常將各式各樣的感應器佈在不同應用中並隨時把所有的資料上傳至雲端伺服器做處理。然而,網路的傳輸需要時間,所以在許多被要求低延遲的應用當中,這樣的架構不一定適合...
人工智慧近年來的應用可說是越來越多元了,不同的產業紛紛開始投入相關的資源來做研究,許多人可能認為AI只與科技業或者是軟體產業有關係,但其實AI對於硬體製造業也是有所影響的,今天我們就來討論一下人工智慧在硬體製造業所帶來的應用吧!
你可能也想看
Google News 追蹤
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
生產過程數據就像是知識庫的原材料,而 AI 標注特徵則是將這些原材料加工成有用知識的關鍵。 透過兩者的結合,企業可以將原本隱藏在數據中的寶貴經驗挖掘出來,並轉化為提升生產效率的利器。
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
學習生成式AI,不僅僅是掌握幾個工具,而是從全方位了解AI的發展範疇及其潛力。我經常在企業教授AI課程時,會遇到HR詢問:某些工具用不上,可以不教嗎?當然可以,但如果同仁不了解生成式AI在「數位內容」上的廣泛應用,又如何掌握大語言模型的發展邊界?
Microsoft Azure AI 900 證照,把準備資料整理分享給大家。 AI 是可模仿人類行為與能力的軟體,主要的工作包含: 機器學習:這通常是 AI 系統的基礎,且是「指導」電腦模型進行預測並從資料中得出結論的方式 電腦視覺:透過相機、影片和影像,以視覺方式解譯世界的 AI 功能
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
機器學習領域的專業人士可以從這篇文章中獲得寶貴的見解。 追求更大的數據集和更強大的模型一直是提升性能的核心策略。 以下是我在機器學習領域工作7年後的三個重大體悟。 ▋體悟1 - 大數據的重要性 自2009年ImageNet問世以來, 數據集的規模和質量對機器學習的影響越
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
Thumbnail
本文會利用sklearn引入breast_cancer datasets來訓練,在處理數據的部份,特徵工程用兩種方式去做處理,分別是特徵選取與特徵萃取的方式去做比較。 特徵選取的方法中,使用了KNN 分類器來選出最重要的兩個特徵 特徵萃取的方法中,使用了PCA降維
Thumbnail
Sequential Feature Selection(SFS) 用中文來解釋為,逐一特徵選取訓練,找出最重要的特徵,以提高模型的性能和效率 SFS 的一些用途包括: 維度縮減: 在高維度數據中,許多特徵可能是多餘或不重要的,使用 SFS 可以找到最能代表數據的特徵,從而減少計算和記憶體需求
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
生產過程數據就像是知識庫的原材料,而 AI 標注特徵則是將這些原材料加工成有用知識的關鍵。 透過兩者的結合,企業可以將原本隱藏在數據中的寶貴經驗挖掘出來,並轉化為提升生產效率的利器。
Thumbnail
特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
Thumbnail
學習生成式AI,不僅僅是掌握幾個工具,而是從全方位了解AI的發展範疇及其潛力。我經常在企業教授AI課程時,會遇到HR詢問:某些工具用不上,可以不教嗎?當然可以,但如果同仁不了解生成式AI在「數位內容」上的廣泛應用,又如何掌握大語言模型的發展邊界?
Microsoft Azure AI 900 證照,把準備資料整理分享給大家。 AI 是可模仿人類行為與能力的軟體,主要的工作包含: 機器學習:這通常是 AI 系統的基礎,且是「指導」電腦模型進行預測並從資料中得出結論的方式 電腦視覺:透過相機、影片和影像,以視覺方式解譯世界的 AI 功能
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
機器學習領域的專業人士可以從這篇文章中獲得寶貴的見解。 追求更大的數據集和更強大的模型一直是提升性能的核心策略。 以下是我在機器學習領域工作7年後的三個重大體悟。 ▋體悟1 - 大數據的重要性 自2009年ImageNet問世以來, 數據集的規模和質量對機器學習的影響越
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
Thumbnail
本文會利用sklearn引入breast_cancer datasets來訓練,在處理數據的部份,特徵工程用兩種方式去做處理,分別是特徵選取與特徵萃取的方式去做比較。 特徵選取的方法中,使用了KNN 分類器來選出最重要的兩個特徵 特徵萃取的方法中,使用了PCA降維
Thumbnail
Sequential Feature Selection(SFS) 用中文來解釋為,逐一特徵選取訓練,找出最重要的特徵,以提高模型的性能和效率 SFS 的一些用途包括: 維度縮減: 在高維度數據中,許多特徵可能是多餘或不重要的,使用 SFS 可以找到最能代表數據的特徵,從而減少計算和記憶體需求