機器學習裡面的特徵是什麼？

史塔克實驗室

2025/01/06 更新2022/01/07 發佈閱讀 5 分鐘

兼回答觀眾來信問題

經過上一次的文章之後，棒棒的觀眾們依然有問題丟過來有些觀眾的問題都滿認真的，也不好像其他節目一樣在節目上講講就沒了，所以依然用文章的方式帶給大家一點東西。

我們先來看看觀眾疑問：

1. 是不是機器人預測的結果，都是依照revenue?

2. 機器人有沒有一個規律的pattern 或預判模式？

3. 統計方法在意的是推理的過程與資料完整性，機器學習預測,不知我的理解是否正確？

那在回答這些東西之前，我介紹個專有名詞 — 「特徵」Feature

特徵是什麼?

在機器學習裡面，特徵的意思指的是是被觀測對象的可測量性能或特性。

通常是數值型的，如果是圖像辨識或者文字探勘的專案，就…想辦法變成數值，總是有方法的。

舉個例子，例如：想建立一個用身高以及體重來判斷性別的模型。

則「身高」、「體重」就是特徵。

上面的例子，是很清楚明瞭，用了「身高」跟「體重」當作判斷的依據。

但有時候資料一來是亂七八糟的，有可能一些資訊會藏在文章裡面，需要人工或者機器慢慢把「有用的」資訊拿出來當作特徵，這稱為特徵提取（英語：Feature extraction）。

特徵提取又是什麼？

因為有時候我們一拿到資料，不是處於馬上可以使用的狀態，除了我上面提到的情境之外，有些資料拿到的時候會過於龐大護者冗餘以至於不便處理，這時透過「特徵提取」把這些不能識別的原始數據轉化為算法可以識別的特徵，然後繼續進行模型的訓練。

有些人或者參考書籍會說「特徵提取」能夠提升效率或者準確率，但我必須說其實他最大的好處就是讓模型至少能夠跑起來，有時候沒做這一步根本沒辦法用啊…..

好拉我在簡介最後一個「特徵選擇」;這也是我們史塔克實驗室的模型裡面用到的一項技術。其實我們EP59 就有介紹過這項技術了。通過特徵選擇，原始特徵資料裡面的冗餘特徵和不相關的特徵被除去。而有用特徵得以保留。講是這樣講，但這個「冗餘」跟「不必要」不是我們人類認知的那種，以為肉眼看就知道誰不必要。有時候是透過機器反覆的運算之後，才會有個排序出來，指出哪些特徵是不重要的。一切都是performance說了算。

好，我終於要回答問題了XDDDDD

1. 是不是機器人預測的結果，都是依照revenue?

不是，沒有「都」依照，雖然我有講到，經過特徵選擇方法之後，有看到幾個營收指標全中比較高，但這句話的意思不代表預測的依據都是參照某二個指標就決定了。例如我的設計是用特徵選擇從108個特徵中選出15個比較強的特徵來用，裡面其實就包含了其他非營收類型的指標。預測的結果都是需要參照所有指標綜合因素下的判斷。

再舉個例子，例如 Results= w1*a1+w2*a2+w3*a3……w15*a15

其中a1,a2….a15代表的是15種指標的數值。而w1,w2…..w15代表15個指標的權重

營收指標可能只是某一些指標而已，或許他們擁有某些高權重。但不代表他們引領一切。

2. 機器人有沒有一個規律的 pattern 或預判模式？

規律的 pattern或者模式，這我很難解釋，如果是CNN（Convolutional Neural Networks ）或許可以把裡面的特徵拉出來看看，也許就會有某一種規律的 pattern。但是在我們史塔克實驗室的模型，靠的是指標的綜合數據判斷，就不太會有某種固定的模式。

3. 統計方法在意的是推理的過程與資料完整性，機器學習預測,不知我的理解是否正確？

大致上正確，我幫觀眾統整一下論述，統計學在意的是真實資料的分布，除了推理的過程與資料完整性之外，統計學希望盡可能帶給使用者「真實」呈現，所以統計學的模型非常在意可解釋性。

而機器學習在意的是能否根據已知來預測未知，而機器學習相對上是結果導向的，結果就是一切，只要結果夠好，中間過程我通通不在意，所以我常常在節目說「黑盒子」，意思就是機器學習的過程非常難以解釋。

歡迎來我們官網、fb看看

📌史塔克實驗室官網:http://starklab.tw/

📌史塔克實驗室FB: https://www.facebook.com/starklab2020/

📌Podcasts:Apple: https://reurl.cc/D63Dz6

📌SoundOn: https://reurl.cc/n0OXad

📌Spotify :https://reurl.cc/Z71LrA

留言

史塔克實驗室的沙龍

114會員

95內容數

史塔克音近Stock，我們是一群喜歡研究股市市場並且利用機器學習分析的資料科學家，我們最常使用到Python來做量化投資，研究了一段時間的財經跟程式，希望能把我們自己分析的分析成果，和大家一起分享看看，並且和大家在這一條漫長的路一起學習成長！

史塔克實驗室的沙龍的其他內容

2024/10/13

2024年倒數兩個月：台積電與ETF選股機器人表現解析

2024年只剩下最後兩個月，九月份ETF選股機器人的績效為-0.5%，而0050的績效則達到了9.8%。正如我們上週提到的，在台積電的帶領下，0050表現相當亮眼。許多分析師認為，台積電於10月17日的法說會，加上美國降息後的資金行情，有可能為台股帶來進一步的增溫。降息效應與籌碼觀察

2024/10/13

2024年倒數兩個月：台積電與ETF選股機器人表現解析

2024/02/21

裁員衝擊下的科技行業：解析背後的趨勢與影響

近期，科技業裁員消息不斷，裁員潮席捲各大知名企業，成千上萬的員工面臨著失業的風險。這不僅是一場公司內部重組，更是一場對整個行業結構的巨大挑戰。今天，我們會來聊一下這個主題，以及它對當前的失業率和未來的就業趨勢可能帶來的影響。請緊跟我們的節目，一同來了解這個為人們帶來焦慮的問題。網路通訊設備大

2024/02/21

裁員衝擊下的科技行業：解析背後的趨勢與影響

2024/01/30

美股收紅 #標普500指數改寫歷史新高中國經濟遇到了大麻煩

#美股收紅 #標普500指數改寫歷史新高 #中國經濟遇到了大麻煩現在是怎樣，直接二個世界嗎？美國最近股票漲成這樣，中國爛成這樣，還好我沒去接騰訊...而且華爾街日報還直接有一篇「Americans Are Suddenly a Lot More Upbeat About the

2024/01/30

美股收紅 #標普500指數改寫歷史新高中國經濟遇到了大麻煩

看更多

你可能也想看

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11