機器學習裡面的特徵是什麼？

史塔克實驗室

更新於 2025/01/06發佈於 2022/01/07閱讀時間約 5 分鐘

兼回答觀眾來信問題

經過上一次的文章之後，棒棒的觀眾們依然有問題丟過來有些觀眾的問題都滿認真的，也不好像其他節目一樣在節目上講講就沒了，所以依然用文章的方式帶給大家一點東西。

我們先來看看觀眾疑問：

1. 是不是機器人預測的結果，都是依照revenue?

2. 機器人有沒有一個規律的pattern 或預判模式？

3. 統計方法在意的是推理的過程與資料完整性，機器學習預測,不知我的理解是否正確？

那在回答這些東西之前，我介紹個專有名詞 — 「特徵」Feature

特徵是什麼?

在機器學習裡面，特徵的意思指的是是被觀測對象的可測量性能或特性。

通常是數值型的，如果是圖像辨識或者文字探勘的專案，就…想辦法變成數值，總是有方法的。

舉個例子，例如：想建立一個用身高以及體重來判斷性別的模型。

則「身高」、「體重」就是特徵。

上面的例子，是很清楚明瞭，用了「身高」跟「體重」當作判斷的依據。

但有時候資料一來是亂七八糟的，有可能一些資訊會藏在文章裡面，需要人工或者機器慢慢把「有用的」資訊拿出來當作特徵，這稱為特徵提取（英語：Feature extraction）。

特徵提取又是什麼？

因為有時候我們一拿到資料，不是處於馬上可以使用的狀態，除了我上面提到的情境之外，有些資料拿到的時候會過於龐大護者冗餘以至於不便處理，這時透過「特徵提取」把這些不能識別的原始數據轉化為算法可以識別的特徵，然後繼續進行模型的訓練。

有些人或者參考書籍會說「特徵提取」能夠提升效率或者準確率，但我必須說其實他最大的好處就是讓模型至少能夠跑起來，有時候沒做這一步根本沒辦法用啊…..

好拉我在簡介最後一個「特徵選擇」;這也是我們史塔克實驗室的模型裡面用到的一項技術。其實我們EP59 就有介紹過這項技術了。通過特徵選擇，原始特徵資料裡面的冗餘特徵和不相關的特徵被除去。而有用特徵得以保留。講是這樣講，但這個「冗餘」跟「不必要」不是我們人類認知的那種，以為肉眼看就知道誰不必要。有時候是透過機器反覆的運算之後，才會有個排序出來，指出哪些特徵是不重要的。一切都是performance說了算。

好，我終於要回答問題了XDDDDD

1. 是不是機器人預測的結果，都是依照revenue?

不是，沒有「都」依照，雖然我有講到，經過特徵選擇方法之後，有看到幾個營收指標全中比較高，但這句話的意思不代表預測的依據都是參照某二個指標就決定了。例如我的設計是用特徵選擇從108個特徵中選出15個比較強的特徵來用，裡面其實就包含了其他非營收類型的指標。預測的結果都是需要參照所有指標綜合因素下的判斷。

再舉個例子，例如 Results= w1*a1+w2*a2+w3*a3……w15*a15

其中a1,a2….a15代表的是15種指標的數值。而w1,w2…..w15代表15個指標的權重

營收指標可能只是某一些指標而已，或許他們擁有某些高權重。但不代表他們引領一切。

2. 機器人有沒有一個規律的 pattern 或預判模式？

規律的 pattern或者模式，這我很難解釋，如果是CNN（Convolutional Neural Networks ）或許可以把裡面的特徵拉出來看看，也許就會有某一種規律的 pattern。但是在我們史塔克實驗室的模型，靠的是指標的綜合數據判斷，就不太會有某種固定的模式。

3. 統計方法在意的是推理的過程與資料完整性，機器學習預測,不知我的理解是否正確？

大致上正確，我幫觀眾統整一下論述，統計學在意的是真實資料的分布，除了推理的過程與資料完整性之外，統計學希望盡可能帶給使用者「真實」呈現，所以統計學的模型非常在意可解釋性。

而機器學習在意的是能否根據已知來預測未知，而機器學習相對上是結果導向的，結果就是一切，只要結果夠好，中間過程我通通不在意，所以我常常在節目說「黑盒子」，意思就是機器學習的過程非常難以解釋。

歡迎來我們官網、fb看看

📌史塔克實驗室官網:http://starklab.tw/

📌史塔克實驗室FB: https://www.facebook.com/starklab2020/

📌Podcasts:Apple: https://reurl.cc/D63Dz6

📌SoundOn: https://reurl.cc/n0OXad

📌Spotify :https://reurl.cc/Z71LrA

留言

留言分享你的想法！

史塔克實驗室的沙龍

113會員

94內容數

史塔克音近Stock，我們是一群喜歡研究股市市場並且利用機器學習分析的資料科學家，我們最常使用到Python來做量化投資，研究了一段時間的財經跟程式，希望能把我們自己分析的分析成果，和大家一起分享看看，並且和大家在這一條漫長的路一起學習成長！

史塔克實驗室的沙龍的其他內容

2024/10/13

2024年倒數兩個月：台積電與ETF選股機器人表現解析

2024年只剩下最後兩個月，九月份ETF選股機器人的績效為-0.5%，而0050的績效則達到了9.8%。正如我們上週提到的，在台積電的帶領下，0050表現相當亮眼。許多分析師認為，台積電於10月17日的法說會，加上美國降息後的資金行情，有可能為台股帶來進一步的增溫。降息效應與籌碼觀察

2024/10/13

2024年倒數兩個月：台積電與ETF選股機器人表現解析

2024/02/21

裁員衝擊下的科技行業：解析背後的趨勢與影響

近期，科技業裁員消息不斷，裁員潮席捲各大知名企業，成千上萬的員工面臨著失業的風險。這不僅是一場公司內部重組，更是一場對整個行業結構的巨大挑戰。今天，我們會來聊一下這個主題，以及它對當前的失業率和未來的就業趨勢可能帶來的影響。請緊跟我們的節目，一同來了解這個為人們帶來焦慮的問題。網路通訊設備大

2024/02/21

裁員衝擊下的科技行業：解析背後的趨勢與影響

2024/01/30

美股收紅 #標普500指數改寫歷史新高中國經濟遇到了大麻煩

#美股收紅 #標普500指數改寫歷史新高 #中國經濟遇到了大麻煩現在是怎樣，直接二個世界嗎？美國最近股票漲成這樣，中國爛成這樣，還好我沒去接騰訊...而且華爾街日報還直接有一篇「Americans Are Suddenly a Lot More Upbeat About the

2024/01/30

美股收紅 #標普500指數改寫歷史新高中國經濟遇到了大麻煩

看更多

你可能也想看

小愛和彤彤的小日常的沙龍

告別瞇眼寫功課！喜光TIONE⁺光健康智慧檯燈守護孩子視力

孩子寫功課時瞇眼？小心近視！這款喜光全光譜TIONE⁺光健康智慧檯燈，獲眼科院長推薦，網路好評不斷！全光譜LED、180cm大照明範圍、5段亮度及色溫調整、350度萬向旋轉，讓孩子學習更舒適、保護眼睛！

#方格新手#保護眼睛#閱讀

2025/06/21

小愛和彤彤的小日常的沙龍

告別瞇眼寫功課！喜光TIONE⁺光健康智慧檯燈守護孩子視力

#方格新手#保護眼睛#閱讀

2025/06/21

方格子 vocus 官方沙龍

徵才：創作者營運專員/經理（Operations Specialist）｜Creator Partnership 部門

創作者營運專員/經理（Operations Specialist/Manager）將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力，找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。

#vocus#方格子#求職

2025/06/23

方格子 vocus 官方沙龍

徵才：創作者營運專員/經理（Operations Specialist）｜Creator Partnership 部門

#vocus#方格子#求職

2025/06/23

李政旺的沙龍

專家經驗和機器學習取得的「權重」的差異，以及可能的整合方式。

在資料科學中常可以聽到「權重」，可藉由專家經驗和機器學習取得「權重」，但他們差別是什麼？在透過演算法決定權重的想法相對盛行的現今，又如何整合兩種途徑的結果？

#資料科學#資料分析#專家經驗

2023/07/02

李政旺的沙龍

專家經驗和機器學習取得的「權重」的差異，以及可能的整合方式。

#資料科學#資料分析#專家經驗

2023/07/02

Ted Chen的沙龍

快速瞭解機器學習基本原理

本文深入探討機器學習的核心概念，包括迴歸、分類和生成式學習。我們解釋了如何使用特定函式來實現期望任務，並將此過程分為設定範圍、確立標準和實現目標三個階段。文章還介紹了如何使用機器學習來訓練和測試模型，並以寶可夢應用為例說明迴歸和分類問題。

2023/06/02

2023/06/02

【深智書摘】機器學習（machine learning）是什麼？

人們透過機器學習（machine learning），試著讓電腦能夠從大量資料中學習成長，不僅可以運用在生活各方面的功能提升，甚至還能透過這些既有的資料，起到鑑往知來的效果，處在當今資訊爆炸的時代，正是你開始學機器學習的最好時機！

#機器學習

2023/02/18

深智數位的沙龍

【深智書摘】機器學習（machine learning）是什麼？

#機器學習

2023/02/18

紫式講義的沙龍

我對合成數據的三個思考：資料效度，傾向分數，前處理的效度損失

本文章想分享給你，我在閱讀有效合成數據的文章後，產生的理解與思考。首先，本文章有三個有趣的實驗問題：資料前處理(Data-Preprocession)對合成數據效度的影響。是否需要對合成的機器學習模型調參(Tuning)。效度測量是否能預測合成數據訓練的機器學習模型的準確度。

#合成數據#機器學習#傾向分數

2022/07/30

紫式講義的沙龍

我對合成數據的三個思考：資料效度，傾向分數，前處理的效度損失