機器學習裡面的特徵是什麼?

閱讀時間約 4 分鐘
兼回答觀眾來信問題
經過上一次的文章之後,棒棒的觀眾們依然有問題丟過來 有些觀眾的問題都滿認真的,也不好像其他節目一樣 在節目上講講就沒了,所以依然用文章的方式帶給大家一點東西。
我們先來看看觀眾疑問:
1. 是不是機器人預測的結果,都是依照revenue?
2. 機器人有沒有一個規律的pattern 或預判模式?
3. 統計方法在意的是推理的過程與資料完整性,機器學習預測,不知我的理解是否正確?
那在回答這些東西之前,我介紹個專有名詞 — 「特徵」Feature
特徵是什麼?
在機器學習裡面,特徵的意思 指的是 是被觀測對象的可測量性能或特性。
通常是數值型的,如果是圖像辨識或者文字探勘的專案,就…想辦法變成數值,總是有方法的。
舉個例子,例如:想建立一個用身高以及體重來判斷性別的模型。
則「身高」、「體重」就是特徵。
上面的例子,是很清楚明瞭,用了「身高」跟「體重」當作判斷的依據。
但有時候資料一來是亂七八糟的,有可能一些資訊會藏在文章裡面,需要人工或者機器慢慢把「有用的」資訊拿出來當作特徵,這稱為特徵提取(英語:Feature extraction)。
特徵提取又是什麼?
因為有時候我們一拿到資料,不是處於馬上可以使用的狀態,除了我上面提到的情境之外,有些資料拿到的時候會過於龐大護者冗餘以至於不便處理,這時透過「特徵提取」把這些不能識別的原始數據轉化為算法可以識別的特徵,然後繼續進行模型的訓練。
有些人或者參考書籍會說「特徵提取」能夠提升效率或者準確率,但我必須說其實他最大的好處就是讓模型至少能夠跑起來,有時候沒做這一步根本沒辦法用啊…..
好拉 我在簡介最後一個「特徵選擇」;這也是我們史塔克實驗室的模型裡面用到的一項技術。 其實我們EP59 就有介紹過這項技術了。 通過特徵選擇,原始特徵資料裡面的冗餘特徵和不相關的特徵被除去。而有用特徵得以保留。 講是這樣講,但這個「冗餘」跟「不必要」不是我們人類認知的那種,以為肉眼看就知道誰不必要。有時候是透過機器反覆的運算之後,才會有個排序出來,指出哪些特徵是不重要的。一切都是performance說了算。
好,我終於要回答問題了XDDDDD
1. 是不是機器人預測的結果,都是依照revenue?
不是,沒有「都」依照,雖然我有講到,經過特徵選擇方法之後,有看到幾個營收指標全中比較高,但這句話的意思不代表 預測的依據都是參照某二個指標就決定了。例如我的設計是用特徵選擇從108個特徵中選出15個比較強的特徵來用,裡面其實就包含了其他非營收類型的指標。 預測的結果都是需要參照所有指標綜合因素下的判斷。
再舉個例子,例如 Results= w1*a1+w2*a2+w3*a3……w15*a15
其中a1,a2….a15代表的是15種指標的數值。而w1,w2…..w15代表15個指標的權重
營收指標可能只是某一些指標而已,或許他們擁有某些高權重。但不代表他們引領一切。
2. 機器人有沒有一個規律的 pattern 或預判模式?
規律的 pattern或者模式,這我很難解釋,如果是CNN(Convolutional Neural Networks )或許可以把裡面的特徵拉出來看看,也許就會有某一種規律的 pattern。但是在我們史塔克實驗室的模型,靠的是指標的綜合數據判斷,就不太會有某種固定的模式。
3. 統計方法在意的是推理的過程與資料完整性,機器學習預測,不知我的理解是否正確?
大致上正確,我幫觀眾統整一下論述,統計學在意的是真實資料的分布,除了推理的過程與資料完整性之外,統計學希望盡可能帶給使用者「真實」呈現,所以統計學的模型非常在意可解釋性。
而機器學習在意的是能否根據已知來預測未知,而機器學習相對上是結果導向的,結果就是一切,只要結果夠好,中間過程我通通不在意,所以我常常在節目說「黑盒子」,意思就是機器學習的過程非常難以解釋。
歡迎來我們官網、fb看看
📌史塔克實驗室官網:http://starklab.tw/
📌史塔克實驗室FB: https://www.facebook.com/starklab2020/
📌Podcasts:Apple: https://reurl.cc/D63Dz6
📌SoundOn: https://reurl.cc/n0OXad
📌Spotify :https://reurl.cc/Z71LrA
為什麼會看到廣告
    106會員
    93內容數
    史塔克音近Stock,我們是一群喜歡研究股市市場並且利用機器學習分析的資料科學家,我們最常使用到Python來做量化投資,研究了一段時間的財經跟程式,希望能把我們自己分析的分析成果,和大家一起分享看看,並且和大家在這一條漫長的路一起學習成長!
    留言0
    查看全部
    發表第一個留言支持創作者!
    你可能也想看
    [機器學習]感知器(Perceptron)學習心得感知器是一種基本的神經網路模型,用於二分類問題。它模擬了人腦神經元的工作原理,通過調整權重和偏差值來達到預測和分類的目的。 感知器流程 輸入 資料的輸入: 輸入層接受資料的輸入,每個輸入對應一個特徵,還有一個固定的偏差神經元。 資料經過每個神經元時,會乘上相應的
    Thumbnail
    avatar
    螃蟹_crab
    2024-05-18
    機器學習基本概念簡介(上)機器學習是什麼? 簡單來說,機器學習就是訓練機器尋找Function的一段過程,而這個Function可以幫助我們解決我們遇到的問題,或是幫助我們
    avatar
    dab戴伯
    2024-04-27
    LOOI Robot:教室裡的電子雞?讓學習更有趣的桌面機器人LOOI Robot是一款可以讓智慧型手機變身成為桌面機器人的產品,不僅讓學習更有趣,還具有各種創意和實用功能。它可以扮演家教的角色,雖然實際應用還有些困難,但搭配適當的軟體和載具,可以成為一個很好的教學工具。想瞭解更多?請參考官網:https://looirobot.com/,好像還在募資中。
    Thumbnail
    avatar
    樂尼
    2024-03-31
    [機器學習]特徵選取vs特徵萃取,應用breast_cancer資料庫比較其差異本文會利用sklearn引入breast_cancer datasets來訓練,在處理數據的部份,特徵工程用兩種方式去做處理,分別是特徵選取與特徵萃取的方式去做比較。 特徵選取的方法中,使用了KNN 分類器來選出最重要的兩個特徵 特徵萃取的方法中,使用了PCA降維
    Thumbnail
    avatar
    螃蟹_crab
    2024-01-06
    機器學習的倫理挑戰:AI世界的道德考量機器學習(Machine Learning,ML)已經在各個領域實現了令人印象深刻的成就,但同時也帶來了一系列重大的倫理挑戰。本文將深入探討這些挑戰,包括AI的偏見和公平性問題、隱私保護和數據安全,以及AI倫理的國際標準。 AI的偏見和公平性問題 1. 偏見的數據: ML模型的訓練數據可能包含偏
    Thumbnail
    avatar
    AI導遊|傑森王
    2023-09-11
    4-3 在困境中學習 現在來寫一則困境,在你的筆記本上寫下「我過去是那樣,但我現在......」,分享你在困境中學到什麼話語更難,因為它直接、瞬即、無法修改。所以相較於可以一再推敲、修改的文字,話語反求內心的修正,把你的心穩穩地盤繞在,一個即便世界如何擠壓你,也不會說出傷害他人話語的地步。這很難,非常難,差不多是一種類似內觀的修煉才能照見自己的心。所以,我很敬佩助人工作者,他們要如何以話語來療治、陪伴病人呢?這對我而
    avatar
    沙貓貓
    2021-12-28
    為什麼自由主義的年輕人會變成武器科學家?他們學習到在組織的文化中看事情#F編 #大科學 #兩種心靈 拿到熱騰騰的《兩種心靈》,就翻到了一處責編、譯者、推薦者,甚至這本書的讀者應該不會太關注的一個小段落,但是,如果你是《大科學》的責編或讀者,你一定一眼就會看到這個段落,而這個段落,讓我們在閱讀《大科學》時那種不自在,感到怪異的心情,稍稍有點理解。
    Thumbnail
    avatar
    左岸文化
    2021-08-05
    【自主學習】理想的學習,該是什麼模樣?走過冤枉路的2個關鍵提醒從呱呱墜地的那刻起,我們便展開了這一生的學習之旅,還是嬰兒的時候,我們還無法表達自己的需求,於是我們學習用哭聲來表示自己的生理需要,漸漸的我們開始學會說話,能透過講話的方式去模仿我們所聽見的話語,這時候的我們或許不懂單詞的意義,但卻享受在學習的過程中,因為每天的所見所聞都是一個新的世界
    Thumbnail
    avatar
    你的學涯教練 利他能
    2021-06-15
    【自學程式】什麼是CSS選擇器? 學習如何改變網頁內容的樣式與HTML不同,CSS是專門修改網頁內容「樣式」的程式語言,也就是說你沒有辦法透過CSS去新增網頁的文字或是圖片等相關的內容,但你可以透過HTML新增網頁內容後,再使用CSS去修改他的樣式,例如⋯⋯
    Thumbnail
    avatar
    Vivian Yeh
    2021-06-10
    六課的選拔,多一個學習機會,知道了自己想要什麼作者在這兩個月參與了香港5人足球代表隊選拔,與大家分享我在選拔期間所見所聞,得到什麼感受,並在過程中知道自己想要什麼。
    Thumbnail
    avatar
    小FUNG
    2021-04-27