【AI 人工智慧】特徵工程

更新於 發佈於 閱讀時間約 3 分鐘
raw-image

在機器學習裡面,為了要追求更好的表現,我們除了要選出最適當的演算法來應對不同場景外,同時,在將原始資料蒐集好後,我們該如何從中萃取出重要且有用的資訊,是非常重要的一件事情,這就是所謂的”特徵工程”,今天我們就來針對這個主題談談吧!

所謂的”特徵工程”,指的是將原始資料裡重要的特徵抽取出來,而被抽取出來的特徵可以很好的描述原始資料,並進而使整個機器學習的演算法有更好的表現,這就是特徵工程所期望達到之目的。

而在執行面上,這樣一個流程往往需要大量的領域專家(domain expert)以及領域知識(domain knowledge),因為唯有對某特定領域有深入了解的人,才容易找出資料裡重要的特徵。

一般來說,特徵工程不只非常倚靠經驗,它也是個非常花時間以及勞力的一個過程(*),但這也是整個AI系統能否表現的比其他系統出色的關鍵點之一,有好的特徵工程,不只能提高準確度,也可能大大降低模型複雜度並減少所需要的電腦資源。

那麼我們要如何去學習這樣一個很吃經驗的技巧呢?其實在很多數據比賽平台上面,如Kaggle、KDD,有著各式各樣不同領域的資料集,同時也有許多高手在上面分享許多他們多年特徵工程之技巧,或許特徵工程這門學問無法有系統性的成為一本教科書,但我們可以藉由大量去閱讀不同專家的小技巧從中學習,我想這是增進特徵工程功力的不二法門之一吧!

最後,我想要補充的是一個在資料領域裡常被流傳的一段話,“數據和特徵決定了機器學習的上限,而模型和算法只是逼近這個上限而已”(*),這段話其實點出了數據以及特徵這兩個因素對導入AI之重要性,也是在實務上往往會被忽略的細節之一。

(*)根據資料顯示,這個過程可能長達整個專案一半的時間

(*)原文為data and characteristics determine the upper limit of machine learning, and models and algorithms just approach this upper limit.

*本文由知名AI講師-Isaac Lee 李厚均所撰寫
文章轉載自我們共同經營的粉絲頁-小李談數智https://www.facebook.com/isaac60103

更多圖解內容可以到 耀西圖像視覺化教室看看https://www.facebook.com/YoshiGraphics

留言
avatar-img
留言分享你的想法!
avatar-img
Liao Yoshi的沙龍
12會員
33內容數
Liao Yoshi的沙龍的其他內容
2020/11/17
說到人工智慧對於汽車產業的變革,那就不得不提我們時常聽到的自駕車的應用,但大家知道許多知名自駕車廠商裡的防撞系統,都源自於一家非常有名的以色列公司嗎?今天我們就來好好介紹一下這家公司吧!
Thumbnail
2020/11/17
說到人工智慧對於汽車產業的變革,那就不得不提我們時常聽到的自駕車的應用,但大家知道許多知名自駕車廠商裡的防撞系統,都源自於一家非常有名的以色列公司嗎?今天我們就來好好介紹一下這家公司吧!
Thumbnail
2020/11/17
提到這幾年AI人工智慧會那麼火紅的原因,就不得不提”深度學習”*這個領域的重大突破及創新,使得原本被冷落好一陣子的人工智慧又再次興起,都要歸功於 Geoffrey Hinton 這個被稱作「Deep Learning”之父的人...
Thumbnail
2020/11/17
提到這幾年AI人工智慧會那麼火紅的原因,就不得不提”深度學習”*這個領域的重大突破及創新,使得原本被冷落好一陣子的人工智慧又再次興起,都要歸功於 Geoffrey Hinton 這個被稱作「Deep Learning”之父的人...
Thumbnail
2020/11/17
「有時候,被世人遺棄的人,才能成就讓人想像不到的大事。」(*),相信看過電影”模仿遊戲”的人應該對這句話不陌生吧!這是由20世纪最偉大的科學家之一艾倫.圖靈(Alan Turing)曾說過的名言。那麼這個被稱為是計算機科學之父以及人工智慧之父的天才到底是怎麼樣一個人呢?
Thumbnail
2020/11/17
「有時候,被世人遺棄的人,才能成就讓人想像不到的大事。」(*),相信看過電影”模仿遊戲”的人應該對這句話不陌生吧!這是由20世纪最偉大的科學家之一艾倫.圖靈(Alan Turing)曾說過的名言。那麼這個被稱為是計算機科學之父以及人工智慧之父的天才到底是怎麼樣一個人呢?
Thumbnail
看更多
你可能也想看
Thumbnail
在資料科學中常可以聽到「權重」,可藉由專家經驗和機器學習取得「權重」,但他們差別是什麼?在透過演算法決定權重的想法相對盛行的現今,又如何整合兩種途徑的結果?
Thumbnail
在資料科學中常可以聽到「權重」,可藉由專家經驗和機器學習取得「權重」,但他們差別是什麼?在透過演算法決定權重的想法相對盛行的現今,又如何整合兩種途徑的結果?
Thumbnail
我們這個系列就是希望以非常科普的角度來解釋人工智慧。本篇要釐清人工智慧(AI: Artificial Intelligence),機器學習 Machine Learning, 深度學習Deep Learning,另外還有類神經網路,到底互相是什麼關係呢?
Thumbnail
我們這個系列就是希望以非常科普的角度來解釋人工智慧。本篇要釐清人工智慧(AI: Artificial Intelligence),機器學習 Machine Learning, 深度學習Deep Learning,另外還有類神經網路,到底互相是什麼關係呢?
Thumbnail
這是一本講述人工智慧的發展,以及企業在導入人工智慧會遇到的困境,和擁抱人工智慧所需要具備的條件,給身在台灣的各位一個思考的方向,是一本很值得一讀的書。
Thumbnail
這是一本講述人工智慧的發展,以及企業在導入人工智慧會遇到的困境,和擁抱人工智慧所需要具備的條件,給身在台灣的各位一個思考的方向,是一本很值得一讀的書。
Thumbnail
人們透過機器學習(machine learning),試著讓電腦能夠從大量資料中學習成長,不僅可以運用在生活各方面的功能提升,甚至還能透過這些既有的資料,起到鑑往知來的效果,處在當今資訊爆炸的時代,正是你開始學機器學習的最好時機!
Thumbnail
人們透過機器學習(machine learning),試著讓電腦能夠從大量資料中學習成長,不僅可以運用在生活各方面的功能提升,甚至還能透過這些既有的資料,起到鑑往知來的效果,處在當今資訊爆炸的時代,正是你開始學機器學習的最好時機!
Thumbnail
兼回答觀眾來信問題 經過上一次的文章之後,棒棒的觀眾們依然有問題丟過來 有些觀眾的問題都滿認真的,也不好像其他節目一樣 在節目上講講就沒了,所以依然用文章的方式帶給大家一點東西。 我們先來看看觀眾疑問: 1. 是不是機器人預測的結果,都是依照revenue? 特徵是什麼? 特徵提取又是什麼?
Thumbnail
兼回答觀眾來信問題 經過上一次的文章之後,棒棒的觀眾們依然有問題丟過來 有些觀眾的問題都滿認真的,也不好像其他節目一樣 在節目上講講就沒了,所以依然用文章的方式帶給大家一點東西。 我們先來看看觀眾疑問: 1. 是不是機器人預測的結果,都是依照revenue? 特徵是什麼? 特徵提取又是什麼?
Thumbnail
在機器學習裡面,為了要追求更好的表現,我們除了要選出最適當的演算法來應對不同場景外,同時,在將原始資料蒐集好後,我們該如何從中萃取出重要且有用的資訊,是非常重要的一件事情,這就是所謂的”特徵工程”,今天我們就來針對這個主題談談吧...
Thumbnail
在機器學習裡面,為了要追求更好的表現,我們除了要選出最適當的演算法來應對不同場景外,同時,在將原始資料蒐集好後,我們該如何從中萃取出重要且有用的資訊,是非常重要的一件事情,這就是所謂的”特徵工程”,今天我們就來針對這個主題談談吧...
Thumbnail
儘管深度學習這陣子非常的成功,效果也非常的好, 但每次提到它美中不足的地方時,可解釋性總是被拿來評論一番。今天,我們來針對模型的”可解釋性”這樣一個議題做深入的討論。所謂的「可解釋性」,就是當人工智慧演算法做決策的時候,我們是否能夠清楚了解為什麼電腦會做這樣一個決策以及判斷...
Thumbnail
儘管深度學習這陣子非常的成功,效果也非常的好, 但每次提到它美中不足的地方時,可解釋性總是被拿來評論一番。今天,我們來針對模型的”可解釋性”這樣一個議題做深入的討論。所謂的「可解釋性」,就是當人工智慧演算法做決策的時候,我們是否能夠清楚了解為什麼電腦會做這樣一個決策以及判斷...
Thumbnail
十幾年前還在上班累積操作資金的時候(沒辦法! 沒有富爸爸), 從事的是資料科學(data science)相關, 也是Oracle ERP的data architect, 並受過SAP Data Warehousing 模組的訓練
Thumbnail
十幾年前還在上班累積操作資金的時候(沒辦法! 沒有富爸爸), 從事的是資料科學(data science)相關, 也是Oracle ERP的data architect, 並受過SAP Data Warehousing 模組的訓練
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News