機器學習裡面的特徵是什麼?

閱讀時間約 4 分鐘
兼回答觀眾來信問題
經過上一次的文章之後,棒棒的觀眾們依然有問題丟過來 有些觀眾的問題都滿認真的,也不好像其他節目一樣 在節目上講講就沒了,所以依然用文章的方式帶給大家一點東西。
我們先來看看觀眾疑問:
1. 是不是機器人預測的結果,都是依照revenue?
2. 機器人有沒有一個規律的pattern 或預判模式?
3. 統計方法在意的是推理的過程與資料完整性,機器學習預測,不知我的理解是否正確?
那在回答這些東西之前,我介紹個專有名詞 — 「特徵」Feature
特徵是什麼?
在機器學習裡面,特徵的意思 指的是 是被觀測對象的可測量性能或特性。
通常是數值型的,如果是圖像辨識或者文字探勘的專案,就…想辦法變成數值,總是有方法的。
舉個例子,例如:想建立一個用身高以及體重來判斷性別的模型。
則「身高」、「體重」就是特徵。
上面的例子,是很清楚明瞭,用了「身高」跟「體重」當作判斷的依據。
但有時候資料一來是亂七八糟的,有可能一些資訊會藏在文章裡面,需要人工或者機器慢慢把「有用的」資訊拿出來當作特徵,這稱為特徵提取(英語:Feature extraction)。
特徵提取又是什麼?
因為有時候我們一拿到資料,不是處於馬上可以使用的狀態,除了我上面提到的情境之外,有些資料拿到的時候會過於龐大護者冗餘以至於不便處理,這時透過「特徵提取」把這些不能識別的原始數據轉化為算法可以識別的特徵,然後繼續進行模型的訓練。
有些人或者參考書籍會說「特徵提取」能夠提升效率或者準確率,但我必須說其實他最大的好處就是讓模型至少能夠跑起來,有時候沒做這一步根本沒辦法用啊…..
好拉 我在簡介最後一個「特徵選擇」;這也是我們史塔克實驗室的模型裡面用到的一項技術。 其實我們EP59 就有介紹過這項技術了。 通過特徵選擇,原始特徵資料裡面的冗餘特徵和不相關的特徵被除去。而有用特徵得以保留。 講是這樣講,但這個「冗餘」跟「不必要」不是我們人類認知的那種,以為肉眼看就知道誰不必要。有時候是透過機器反覆的運算之後,才會有個排序出來,指出哪些特徵是不重要的。一切都是performance說了算。
好,我終於要回答問題了XDDDDD
1. 是不是機器人預測的結果,都是依照revenue?
不是,沒有「都」依照,雖然我有講到,經過特徵選擇方法之後,有看到幾個營收指標全中比較高,但這句話的意思不代表 預測的依據都是參照某二個指標就決定了。例如我的設計是用特徵選擇從108個特徵中選出15個比較強的特徵來用,裡面其實就包含了其他非營收類型的指標。 預測的結果都是需要參照所有指標綜合因素下的判斷。
再舉個例子,例如 Results= w1*a1+w2*a2+w3*a3……w15*a15
其中a1,a2….a15代表的是15種指標的數值。而w1,w2…..w15代表15個指標的權重
營收指標可能只是某一些指標而已,或許他們擁有某些高權重。但不代表他們引領一切。
2. 機器人有沒有一個規律的 pattern 或預判模式?
規律的 pattern或者模式,這我很難解釋,如果是CNN(Convolutional Neural Networks )或許可以把裡面的特徵拉出來看看,也許就會有某一種規律的 pattern。但是在我們史塔克實驗室的模型,靠的是指標的綜合數據判斷,就不太會有某種固定的模式。
3. 統計方法在意的是推理的過程與資料完整性,機器學習預測,不知我的理解是否正確?
大致上正確,我幫觀眾統整一下論述,統計學在意的是真實資料的分布,除了推理的過程與資料完整性之外,統計學希望盡可能帶給使用者「真實」呈現,所以統計學的模型非常在意可解釋性。
而機器學習在意的是能否根據已知來預測未知,而機器學習相對上是結果導向的,結果就是一切,只要結果夠好,中間過程我通通不在意,所以我常常在節目說「黑盒子」,意思就是機器學習的過程非常難以解釋。
歡迎來我們官網、fb看看
📌史塔克實驗室官網:http://starklab.tw/
📌史塔克實驗室FB: https://www.facebook.com/starklab2020/
📌Podcasts:Apple: https://reurl.cc/D63Dz6
📌SoundOn: https://reurl.cc/n0OXad
📌Spotify :https://reurl.cc/Z71LrA
為什麼會看到廣告
    avatar-img
    110會員
    94內容數
    史塔克音近Stock,我們是一群喜歡研究股市市場並且利用機器學習分析的資料科學家,我們最常使用到Python來做量化投資,研究了一段時間的財經跟程式,希望能把我們自己分析的分析成果,和大家一起分享看看,並且和大家在這一條漫長的路一起學習成長!
    留言0
    查看全部
    avatar-img
    發表第一個留言支持創作者!
    前幾年看『華爾街日報』報導一件事,全球大數據資料的擴增跟應用正急速擴張當中,因為中國大陸的崛起還有人數的因素,以亞洲地區大數據相關產業最具獲利潛力。 從今之後,用大數據來獲取投資,是越來越常見到的事,高盛集團在2015年對新加坡大數據公司進行高達5,600萬美元的投資案,企圖從社群媒體、通訊APP得
    圖片來源:pexels 如果用到「預測」這個字眼,我覺得會讓民眾抱著明牌的高度期望 ,這非常要不得,畢竟如果了解人工智慧的原理,以及認知到市場的高度變化 『預測』,在MBA百科寫的給大家參考參考: 預測(forecasting)是預計未來事件的一門藝術,一門科學。它包含採集歷史數據並用某種數學模型來
    A.i人工智慧真的能預測股市嗎 ? 我們不免俗再提到機器學習,前幾年機器學習,人工智慧這些名詞非常的夯,引領風潮,全世界都在瘋狂,因為AlphaGo 打敗了無數個圍棋高手,開始炒熱機器學習。有人也許好奇,AlphaGo的技術不就是人工神經網路嗎,他的概念由來已久......
    其實 我標題很想下:   把高永夏打到退出棋壇的神秘高手 — Alphago
    這篇文章的標題有「預測」二字,但看完之後請大家思考一下,這種基於「統計學」、「機器學習」的預測方法,是否跟你心中的「預測」相差甚遠呢?
    在大數據以及科技的快速進展之下,會有許多傳統投資者對這種投資方式並不是很理解,並且對機器學習還有電腦來輔助感到不安,但我們要指出,這些並不是新概念,許多投資者已經在使用數據和某種形式的機器學習來分析市場資訊。  
    前幾年看『華爾街日報』報導一件事,全球大數據資料的擴增跟應用正急速擴張當中,因為中國大陸的崛起還有人數的因素,以亞洲地區大數據相關產業最具獲利潛力。 從今之後,用大數據來獲取投資,是越來越常見到的事,高盛集團在2015年對新加坡大數據公司進行高達5,600萬美元的投資案,企圖從社群媒體、通訊APP得
    圖片來源:pexels 如果用到「預測」這個字眼,我覺得會讓民眾抱著明牌的高度期望 ,這非常要不得,畢竟如果了解人工智慧的原理,以及認知到市場的高度變化 『預測』,在MBA百科寫的給大家參考參考: 預測(forecasting)是預計未來事件的一門藝術,一門科學。它包含採集歷史數據並用某種數學模型來
    A.i人工智慧真的能預測股市嗎 ? 我們不免俗再提到機器學習,前幾年機器學習,人工智慧這些名詞非常的夯,引領風潮,全世界都在瘋狂,因為AlphaGo 打敗了無數個圍棋高手,開始炒熱機器學習。有人也許好奇,AlphaGo的技術不就是人工神經網路嗎,他的概念由來已久......
    其實 我標題很想下:   把高永夏打到退出棋壇的神秘高手 — Alphago
    這篇文章的標題有「預測」二字,但看完之後請大家思考一下,這種基於「統計學」、「機器學習」的預測方法,是否跟你心中的「預測」相差甚遠呢?
    在大數據以及科技的快速進展之下,會有許多傳統投資者對這種投資方式並不是很理解,並且對機器學習還有電腦來輔助感到不安,但我們要指出,這些並不是新概念,許多投資者已經在使用數據和某種形式的機器學習來分析市場資訊。  
    你可能也想看
    Google News 追蹤
    Thumbnail
    這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
    Thumbnail
    11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
    Thumbnail
    Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
    Thumbnail
    感知器是一種基本的神經網路模型,用於二分類問題。它模擬了人腦神經元的工作原理,通過調整權重和偏差值來達到預測和分類的目的。 感知器流程 輸入 資料的輸入: 輸入層接受資料的輸入,每個輸入對應一個特徵,還有一個固定的偏差神經元。 資料經過每個神經元時,會乘上相應的
    機器學習是什麼? 簡單來說,機器學習就是訓練機器尋找Function的一段過程,而這個Function可以幫助我們解決我們遇到的問題,或是幫助我們
    Thumbnail
    LOOI Robot是一款可以讓智慧型手機變身成為桌面機器人的產品,不僅讓學習更有趣,還具有各種創意和實用功能。它可以扮演家教的角色,雖然實際應用還有些困難,但搭配適當的軟體和載具,可以成為一個很好的教學工具。想瞭解更多?請參考官網:https://looirobot.com/,好像還在募資中。
    Thumbnail
    本文會利用sklearn引入breast_cancer datasets來訓練,在處理數據的部份,特徵工程用兩種方式去做處理,分別是特徵選取與特徵萃取的方式去做比較。 特徵選取的方法中,使用了KNN 分類器來選出最重要的兩個特徵 特徵萃取的方法中,使用了PCA降維
    Thumbnail
    機器學習(Machine Learning,ML)已經在各個領域實現了令人印象深刻的成就,但同時也帶來了一系列重大的倫理挑戰。本文將深入探討這些挑戰,包括AI的偏見和公平性問題、隱私保護和數據安全,以及AI倫理的國際標準。 AI的偏見和公平性問題 1. 偏見的數據: ML模型的訓練數據可能包含偏
    話語更難,因為它直接、瞬即、無法修改。所以相較於可以一再推敲、修改的文字,話語反求內心的修正,把你的心穩穩地盤繞在,一個即便世界如何擠壓你,也不會說出傷害他人話語的地步。這很難,非常難,差不多是一種類似內觀的修煉才能照見自己的心。所以,我很敬佩助人工作者,他們要如何以話語來療治、陪伴病人呢?這對我而
    Thumbnail
    #F編 #大科學 #兩種心靈 拿到熱騰騰的《兩種心靈》,就翻到了一處責編、譯者、推薦者,甚至這本書的讀者應該不會太關注的一個小段落,但是,如果你是《大科學》的責編或讀者,你一定一眼就會看到這個段落,而這個段落,讓我們在閱讀《大科學》時那種不自在,感到怪異的心情,稍稍有點理解。
    Thumbnail
    從呱呱墜地的那刻起,我們便展開了這一生的學習之旅,還是嬰兒的時候,我們還無法表達自己的需求,於是我們學習用哭聲來表示自己的生理需要,漸漸的我們開始學會說話,能透過講話的方式去模仿我們所聽見的話語,這時候的我們或許不懂單詞的意義,但卻享受在學習的過程中,因為每天的所見所聞都是一個新的世界
    Thumbnail
    與HTML不同,CSS是專門修改網頁內容「樣式」的程式語言,也就是說你沒有辦法透過CSS去新增網頁的文字或是圖片等相關的內容,但你可以透過HTML新增網頁內容後,再使用CSS去修改他的樣式,例如⋯⋯
    Thumbnail
    作者在這兩個月參與了香港5人足球代表隊選拔,與大家分享我在選拔期間所見所聞,得到什麼感受,並在過程中知道自己想要什麼。
    Thumbnail
    這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
    Thumbnail
    11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
    Thumbnail
    Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
    Thumbnail
    感知器是一種基本的神經網路模型,用於二分類問題。它模擬了人腦神經元的工作原理,通過調整權重和偏差值來達到預測和分類的目的。 感知器流程 輸入 資料的輸入: 輸入層接受資料的輸入,每個輸入對應一個特徵,還有一個固定的偏差神經元。 資料經過每個神經元時,會乘上相應的
    機器學習是什麼? 簡單來說,機器學習就是訓練機器尋找Function的一段過程,而這個Function可以幫助我們解決我們遇到的問題,或是幫助我們
    Thumbnail
    LOOI Robot是一款可以讓智慧型手機變身成為桌面機器人的產品,不僅讓學習更有趣,還具有各種創意和實用功能。它可以扮演家教的角色,雖然實際應用還有些困難,但搭配適當的軟體和載具,可以成為一個很好的教學工具。想瞭解更多?請參考官網:https://looirobot.com/,好像還在募資中。
    Thumbnail
    本文會利用sklearn引入breast_cancer datasets來訓練,在處理數據的部份,特徵工程用兩種方式去做處理,分別是特徵選取與特徵萃取的方式去做比較。 特徵選取的方法中,使用了KNN 分類器來選出最重要的兩個特徵 特徵萃取的方法中,使用了PCA降維
    Thumbnail
    機器學習(Machine Learning,ML)已經在各個領域實現了令人印象深刻的成就,但同時也帶來了一系列重大的倫理挑戰。本文將深入探討這些挑戰,包括AI的偏見和公平性問題、隱私保護和數據安全,以及AI倫理的國際標準。 AI的偏見和公平性問題 1. 偏見的數據: ML模型的訓練數據可能包含偏
    話語更難,因為它直接、瞬即、無法修改。所以相較於可以一再推敲、修改的文字,話語反求內心的修正,把你的心穩穩地盤繞在,一個即便世界如何擠壓你,也不會說出傷害他人話語的地步。這很難,非常難,差不多是一種類似內觀的修煉才能照見自己的心。所以,我很敬佩助人工作者,他們要如何以話語來療治、陪伴病人呢?這對我而
    Thumbnail
    #F編 #大科學 #兩種心靈 拿到熱騰騰的《兩種心靈》,就翻到了一處責編、譯者、推薦者,甚至這本書的讀者應該不會太關注的一個小段落,但是,如果你是《大科學》的責編或讀者,你一定一眼就會看到這個段落,而這個段落,讓我們在閱讀《大科學》時那種不自在,感到怪異的心情,稍稍有點理解。
    Thumbnail
    從呱呱墜地的那刻起,我們便展開了這一生的學習之旅,還是嬰兒的時候,我們還無法表達自己的需求,於是我們學習用哭聲來表示自己的生理需要,漸漸的我們開始學會說話,能透過講話的方式去模仿我們所聽見的話語,這時候的我們或許不懂單詞的意義,但卻享受在學習的過程中,因為每天的所見所聞都是一個新的世界
    Thumbnail
    與HTML不同,CSS是專門修改網頁內容「樣式」的程式語言,也就是說你沒有辦法透過CSS去新增網頁的文字或是圖片等相關的內容,但你可以透過HTML新增網頁內容後,再使用CSS去修改他的樣式,例如⋯⋯
    Thumbnail
    作者在這兩個月參與了香港5人足球代表隊選拔,與大家分享我在選拔期間所見所聞,得到什麼感受,並在過程中知道自己想要什麼。