兼回答觀眾來信問題
經過上一次的文章之後,棒棒的觀眾們依然有問題丟過來 有些觀眾的問題都滿認真的,也不好像其他節目一樣 在節目上講講就沒了,所以依然用文章的方式帶給大家一點東西。
我們先來看看觀眾疑問:
1. 是不是機器人預測的結果,都是依照revenue?
2. 機器人有沒有一個規律的pattern 或預判模式?
3. 統計方法在意的是推理的過程與資料完整性,機器學習預測,不知我的理解是否正確?
那在回答這些東西之前,我介紹個專有名詞 — 「特徵」Feature
特徵是什麼?
在機器學習裡面,特徵的意思 指的是 是被觀測對象的可測量性能或特性。
通常是數值型的,如果是圖像辨識或者文字探勘的專案,就…想辦法變成數值,總是有方法的。
舉個例子,例如:想建立一個用身高以及體重來判斷性別的模型。
則「身高」、「體重」就是特徵。
上面的例子,是很清楚明瞭,用了「身高」跟「體重」當作判斷的依據。
但有時候資料一來是亂七八糟的,有可能一些資訊會藏在文章裡面,需要人工或者機器慢慢把「有用的」資訊拿出來當作特徵,這稱為特徵提取(英語:Feature extraction)。
特徵提取又是什麼?
因為有時候我們一拿到資料,不是處於馬上可以使用的狀態,除了我上面提到的情境之外,有些資料拿到的時候會過於龐大護者冗餘以至於不便處理,這時透過「特徵提取」把這些不能識別的原始數據轉化為算法可以識別的特徵,然後繼續進行模型的訓練。
有些人或者參考書籍會說「特徵提取」能夠提升效率或者準確率,但我必須說其實他最大的好處就是讓模型至少能夠跑起來,有時候沒做這一步根本沒辦法用啊…..
好拉 我在簡介最後一個「特徵選擇」;這也是我們史塔克實驗室的模型裡面用到的一項技術。 其實我們EP59 就有介紹過這項技術了。 通過特徵選擇,原始特徵資料裡面的冗餘特徵和不相關的特徵被除去。而有用特徵得以保留。 講是這樣講,但這個「冗餘」跟「不必要」不是我們人類認知的那種,以為肉眼看就知道誰不必要。有時候是透過機器反覆的運算之後,才會有個排序出來,指出哪些特徵是不重要的。一切都是performance說了算。
好,我終於要回答問題了XDDDDD
1. 是不是機器人預測的結果,都是依照revenue?
不是,沒有「都」依照,雖然我有講到,經過特徵選擇方法之後,有看到幾個營收指標全中比較高,但這句話的意思不代表 預測的依據都是參照某二個指標就決定了。例如我的設計是用特徵選擇從108個特徵中選出15個比較強的特徵來用,裡面其實就包含了其他非營收類型的指標。 預測的結果都是需要參照所有指標綜合因素下的判斷。
再舉個例子,例如 Results= w1*a1+w2*a2+w3*a3……w15*a15
其中a1,a2….a15代表的是15種指標的數值。而w1,w2…..w15代表15個指標的權重
營收指標可能只是某一些指標而已,或許他們擁有某些高權重。但不代表他們引領一切。
2. 機器人有沒有一個規律的 pattern 或預判模式?
規律的 pattern或者模式,這我很難解釋,如果是CNN(Convolutional Neural Networks )或許可以把裡面的特徵拉出來看看,也許就會有某一種規律的 pattern。但是在我們史塔克實驗室的模型,靠的是指標的綜合數據判斷,就不太會有某種固定的模式。
3. 統計方法在意的是推理的過程與資料完整性,機器學習預測,不知我的理解是否正確?
大致上正確,我幫觀眾統整一下論述,統計學在意的是真實資料的分布,除了推理的過程與資料完整性之外,統計學希望盡可能帶給使用者「真實」呈現,所以統計學的模型非常在意可解釋性。
而機器學習在意的是能否根據已知來預測未知,而機器學習相對上是結果導向的,結果就是一切,只要結果夠好,中間過程我通通不在意,所以我常常在節目說「黑盒子」,意思就是機器學習的過程非常難以解釋。
歡迎來我們官網、fb看看
📌史塔克實驗室官網:http://starklab.tw/
📌史塔克實驗室FB: https://www.facebook.com/starklab2020/
📌Podcasts:Apple: https://reurl.cc/D63Dz6
📌SoundOn: https://reurl.cc/n0OXad
📌Spotify :https://reurl.cc/Z71LrA