機器學習裡面的特徵是什麼?

更新於 發佈於 閱讀時間約 5 分鐘

兼回答觀眾來信問題

經過上一次的文章之後,棒棒的觀眾們依然有問題丟過來 有些觀眾的問題都滿認真的,也不好像其他節目一樣 在節目上講講就沒了,所以依然用文章的方式帶給大家一點東西。

我們先來看看觀眾疑問:

1. 是不是機器人預測的結果,都是依照revenue?

2. 機器人有沒有一個規律的pattern 或預判模式?

3. 統計方法在意的是推理的過程與資料完整性,機器學習預測,不知我的理解是否正確?

那在回答這些東西之前,我介紹個專有名詞 — 「特徵」Feature

特徵是什麼?

在機器學習裡面,特徵的意思 指的是 是被觀測對象的可測量性能或特性。

通常是數值型的,如果是圖像辨識或者文字探勘的專案,就…想辦法變成數值,總是有方法的。

舉個例子,例如:想建立一個用身高以及體重來判斷性別的模型。

則「身高」、「體重」就是特徵。

上面的例子,是很清楚明瞭,用了「身高」跟「體重」當作判斷的依據。

但有時候資料一來是亂七八糟的,有可能一些資訊會藏在文章裡面,需要人工或者機器慢慢把「有用的」資訊拿出來當作特徵,這稱為特徵提取(英語:Feature extraction)。

特徵提取又是什麼?

因為有時候我們一拿到資料,不是處於馬上可以使用的狀態,除了我上面提到的情境之外,有些資料拿到的時候會過於龐大護者冗餘以至於不便處理,這時透過「特徵提取」把這些不能識別的原始數據轉化為算法可以識別的特徵,然後繼續進行模型的訓練。

有些人或者參考書籍會說「特徵提取」能夠提升效率或者準確率,但我必須說其實他最大的好處就是讓模型至少能夠跑起來,有時候沒做這一步根本沒辦法用啊…..

好拉 我在簡介最後一個「特徵選擇」;這也是我們史塔克實驗室的模型裡面用到的一項技術。 其實我們EP59 就有介紹過這項技術了。 通過特徵選擇,原始特徵資料裡面的冗餘特徵和不相關的特徵被除去。而有用特徵得以保留。 講是這樣講,但這個「冗餘」跟「不必要」不是我們人類認知的那種,以為肉眼看就知道誰不必要。有時候是透過機器反覆的運算之後,才會有個排序出來,指出哪些特徵是不重要的。一切都是performance說了算。

好,我終於要回答問題了XDDDDD

1. 是不是機器人預測的結果,都是依照revenue?

不是,沒有「都」依照,雖然我有講到,經過特徵選擇方法之後,有看到幾個營收指標全中比較高,但這句話的意思不代表 預測的依據都是參照某二個指標就決定了。例如我的設計是用特徵選擇從108個特徵中選出15個比較強的特徵來用,裡面其實就包含了其他非營收類型的指標。 預測的結果都是需要參照所有指標綜合因素下的判斷。

再舉個例子,例如 Results= w1*a1+w2*a2+w3*a3……w15*a15

其中a1,a2….a15代表的是15種指標的數值。而w1,w2…..w15代表15個指標的權重

營收指標可能只是某一些指標而已,或許他們擁有某些高權重。但不代表他們引領一切。

2. 機器人有沒有一個規律的 pattern 或預判模式?

規律的 pattern或者模式,這我很難解釋,如果是CNN(Convolutional Neural Networks )或許可以把裡面的特徵拉出來看看,也許就會有某一種規律的 pattern。但是在我們史塔克實驗室的模型,靠的是指標的綜合數據判斷,就不太會有某種固定的模式。

3. 統計方法在意的是推理的過程與資料完整性,機器學習預測,不知我的理解是否正確?

大致上正確,我幫觀眾統整一下論述,統計學在意的是真實資料的分布,除了推理的過程與資料完整性之外,統計學希望盡可能帶給使用者「真實」呈現,所以統計學的模型非常在意可解釋性。

而機器學習在意的是能否根據已知來預測未知,而機器學習相對上是結果導向的,結果就是一切,只要結果夠好,中間過程我通通不在意,所以我常常在節目說「黑盒子」,意思就是機器學習的過程非常難以解釋。

歡迎來我們官網、fb看看

📌史塔克實驗室官網:http://starklab.tw/

📌史塔克實驗室FB: https://www.facebook.com/starklab2020/

📌Podcasts:Apple: https://reurl.cc/D63Dz6

📌SoundOn: https://reurl.cc/n0OXad

📌Spotify :https://reurl.cc/Z71LrA


留言
avatar-img
留言分享你的想法!
avatar-img
史塔克實驗室的沙龍
113會員
94內容數
史塔克音近Stock,我們是一群喜歡研究股市市場並且利用機器學習分析的資料科學家,我們最常使用到Python來做量化投資,研究了一段時間的財經跟程式,希望能把我們自己分析的分析成果,和大家一起分享看看,並且和大家在這一條漫長的路一起學習成長!
2024/10/13
2024年只剩下最後兩個月,九月份ETF選股機器人的績效為-0.5%,而0050的績效則達到了9.8%。正如我們上週提到的,在台積電的帶領下,0050表現相當亮眼。許多分析師認為,台積電於10月17日的法說會,加上美國降息後的資金行情,有可能為台股帶來進一步的增溫。 降息效應與籌碼觀察
Thumbnail
2024/10/13
2024年只剩下最後兩個月,九月份ETF選股機器人的績效為-0.5%,而0050的績效則達到了9.8%。正如我們上週提到的,在台積電的帶領下,0050表現相當亮眼。許多分析師認為,台積電於10月17日的法說會,加上美國降息後的資金行情,有可能為台股帶來進一步的增溫。 降息效應與籌碼觀察
Thumbnail
2024/02/21
近期,科技業裁員消息不斷,裁員潮席捲各大知名企業,成千上萬的員工面臨著失業的風險。這不僅是一場公司內部重組,更是一場對整個行業結構的巨大挑戰。今天,我們會來聊一下這個主題,以及它對當前的失業率和未來的就業趨勢可能帶來的影響。請緊跟我們的節目,一同來了解這個為人們帶來焦慮的問題。 網路通訊設備大
Thumbnail
2024/02/21
近期,科技業裁員消息不斷,裁員潮席捲各大知名企業,成千上萬的員工面臨著失業的風險。這不僅是一場公司內部重組,更是一場對整個行業結構的巨大挑戰。今天,我們會來聊一下這個主題,以及它對當前的失業率和未來的就業趨勢可能帶來的影響。請緊跟我們的節目,一同來了解這個為人們帶來焦慮的問題。 網路通訊設備大
Thumbnail
2024/01/30
#美股收紅 #標普500指數改寫歷史新高  #中國經濟遇到了大麻煩 現在是怎樣,直接二個世界嗎? 美國最近股票漲成這樣,中國爛成這樣,還好我沒去接騰訊...而且華爾街日報還直接有一篇「Americans Are Suddenly a Lot More Upbeat About the
Thumbnail
2024/01/30
#美股收紅 #標普500指數改寫歷史新高  #中國經濟遇到了大麻煩 現在是怎樣,直接二個世界嗎? 美國最近股票漲成這樣,中國爛成這樣,還好我沒去接騰訊...而且華爾街日報還直接有一篇「Americans Are Suddenly a Lot More Upbeat About the
Thumbnail
看更多
你可能也想看
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
在資料科學中常可以聽到「權重」,可藉由專家經驗和機器學習取得「權重」,但他們差別是什麼?在透過演算法決定權重的想法相對盛行的現今,又如何整合兩種途徑的結果?
Thumbnail
在資料科學中常可以聽到「權重」,可藉由專家經驗和機器學習取得「權重」,但他們差別是什麼?在透過演算法決定權重的想法相對盛行的現今,又如何整合兩種途徑的結果?
Thumbnail
本文深入探討機器學習的核心概念,包括迴歸、分類和生成式學習。我們解釋了如何使用特定函式來實現期望任務,並將此過程分為設定範圍、確立標準和實現目標三個階段。文章還介紹了如何使用機器學習來訓練和測試模型,並以寶可夢應用為例說明迴歸和分類問題。
Thumbnail
本文深入探討機器學習的核心概念,包括迴歸、分類和生成式學習。我們解釋了如何使用特定函式來實現期望任務,並將此過程分為設定範圍、確立標準和實現目標三個階段。文章還介紹了如何使用機器學習來訓練和測試模型,並以寶可夢應用為例說明迴歸和分類問題。
Thumbnail
人們透過機器學習(machine learning),試著讓電腦能夠從大量資料中學習成長,不僅可以運用在生活各方面的功能提升,甚至還能透過這些既有的資料,起到鑑往知來的效果,處在當今資訊爆炸的時代,正是你開始學機器學習的最好時機!
Thumbnail
人們透過機器學習(machine learning),試著讓電腦能夠從大量資料中學習成長,不僅可以運用在生活各方面的功能提升,甚至還能透過這些既有的資料,起到鑑往知來的效果,處在當今資訊爆炸的時代,正是你開始學機器學習的最好時機!
Thumbnail
本文章想分享給你,我在閱讀有效合成數據的文章後,產生的理解與思考。 首先,本文章有三個有趣的實驗問題: 資料前處理(Data-Preprocession)對合成數據效度的影響。 是否需要對合成的機器學習模型調參(Tuning)。 效度測量是否能預測合成數據訓練的機器學習模型的準確度。
Thumbnail
本文章想分享給你,我在閱讀有效合成數據的文章後,產生的理解與思考。 首先,本文章有三個有趣的實驗問題: 資料前處理(Data-Preprocession)對合成數據效度的影響。 是否需要對合成的機器學習模型調參(Tuning)。 效度測量是否能預測合成數據訓練的機器學習模型的準確度。
Thumbnail
兼回答觀眾來信問題 經過上一次的文章之後,棒棒的觀眾們依然有問題丟過來 有些觀眾的問題都滿認真的,也不好像其他節目一樣 在節目上講講就沒了,所以依然用文章的方式帶給大家一點東西。 我們先來看看觀眾疑問: 1. 是不是機器人預測的結果,都是依照revenue? 特徵是什麼? 特徵提取又是什麼?
Thumbnail
兼回答觀眾來信問題 經過上一次的文章之後,棒棒的觀眾們依然有問題丟過來 有些觀眾的問題都滿認真的,也不好像其他節目一樣 在節目上講講就沒了,所以依然用文章的方式帶給大家一點東西。 我們先來看看觀眾疑問: 1. 是不是機器人預測的結果,都是依照revenue? 特徵是什麼? 特徵提取又是什麼?
Thumbnail
透過機器學習與統計分析角度分析UCI機器學習資料集中的網路顧客購買意圖資料,並透過決策樹方式預測顧客是否會購買產品,提及少部分特徵選取、資料不平衡問題。
Thumbnail
透過機器學習與統計分析角度分析UCI機器學習資料集中的網路顧客購買意圖資料,並透過決策樹方式預測顧客是否會購買產品,提及少部分特徵選取、資料不平衡問題。
Thumbnail
在機器學習裡面,為了要追求更好的表現,我們除了要選出最適當的演算法來應對不同場景外,同時,在將原始資料蒐集好後,我們該如何從中萃取出重要且有用的資訊,是非常重要的一件事情,這就是所謂的”特徵工程”,今天我們就來針對這個主題談談吧...
Thumbnail
在機器學習裡面,為了要追求更好的表現,我們除了要選出最適當的演算法來應對不同場景外,同時,在將原始資料蒐集好後,我們該如何從中萃取出重要且有用的資訊,是非常重要的一件事情,這就是所謂的”特徵工程”,今天我們就來針對這個主題談談吧...
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News