機器學習裡面的特徵是什麼?

閱讀時間約 4 分鐘
兼回答觀眾來信問題
經過上一次的文章之後,棒棒的觀眾們依然有問題丟過來 有些觀眾的問題都滿認真的,也不好像其他節目一樣 在節目上講講就沒了,所以依然用文章的方式帶給大家一點東西。
我們先來看看觀眾疑問:
1. 是不是機器人預測的結果,都是依照revenue?
2. 機器人有沒有一個規律的pattern 或預判模式?
3. 統計方法在意的是推理的過程與資料完整性,機器學習預測,不知我的理解是否正確?
那在回答這些東西之前,我介紹個專有名詞 — 「特徵」Feature
特徵是什麼?
在機器學習裡面,特徵的意思 指的是 是被觀測對象的可測量性能或特性。
通常是數值型的,如果是圖像辨識或者文字探勘的專案,就…想辦法變成數值,總是有方法的。
舉個例子,例如:想建立一個用身高以及體重來判斷性別的模型。
則「身高」、「體重」就是特徵。
上面的例子,是很清楚明瞭,用了「身高」跟「體重」當作判斷的依據。
但有時候資料一來是亂七八糟的,有可能一些資訊會藏在文章裡面,需要人工或者機器慢慢把「有用的」資訊拿出來當作特徵,這稱為特徵提取(英語:Feature extraction)。
特徵提取又是什麼?
因為有時候我們一拿到資料,不是處於馬上可以使用的狀態,除了我上面提到的情境之外,有些資料拿到的時候會過於龐大護者冗餘以至於不便處理,這時透過「特徵提取」把這些不能識別的原始數據轉化為算法可以識別的特徵,然後繼續進行模型的訓練。
有些人或者參考書籍會說「特徵提取」能夠提升效率或者準確率,但我必須說其實他最大的好處就是讓模型至少能夠跑起來,有時候沒做這一步根本沒辦法用啊…..
好拉 我在簡介最後一個「特徵選擇」;這也是我們史塔克實驗室的模型裡面用到的一項技術。 其實我們EP59 就有介紹過這項技術了。 通過特徵選擇,原始特徵資料裡面的冗餘特徵和不相關的特徵被除去。而有用特徵得以保留。 講是這樣講,但這個「冗餘」跟「不必要」不是我們人類認知的那種,以為肉眼看就知道誰不必要。有時候是透過機器反覆的運算之後,才會有個排序出來,指出哪些特徵是不重要的。一切都是performance說了算。
好,我終於要回答問題了XDDDDD
1. 是不是機器人預測的結果,都是依照revenue?
不是,沒有「都」依照,雖然我有講到,經過特徵選擇方法之後,有看到幾個營收指標全中比較高,但這句話的意思不代表 預測的依據都是參照某二個指標就決定了。例如我的設計是用特徵選擇從108個特徵中選出15個比較強的特徵來用,裡面其實就包含了其他非營收類型的指標。 預測的結果都是需要參照所有指標綜合因素下的判斷。
再舉個例子,例如 Results= w1*a1+w2*a2+w3*a3……w15*a15
其中a1,a2….a15代表的是15種指標的數值。而w1,w2…..w15代表15個指標的權重
營收指標可能只是某一些指標而已,或許他們擁有某些高權重。但不代表他們引領一切。
2. 機器人有沒有一個規律的 pattern 或預判模式?
規律的 pattern或者模式,這我很難解釋,如果是CNN(Convolutional Neural Networks )或許可以把裡面的特徵拉出來看看,也許就會有某一種規律的 pattern。但是在我們史塔克實驗室的模型,靠的是指標的綜合數據判斷,就不太會有某種固定的模式。
3. 統計方法在意的是推理的過程與資料完整性,機器學習預測,不知我的理解是否正確?
大致上正確,我幫觀眾統整一下論述,統計學在意的是真實資料的分布,除了推理的過程與資料完整性之外,統計學希望盡可能帶給使用者「真實」呈現,所以統計學的模型非常在意可解釋性。
而機器學習在意的是能否根據已知來預測未知,而機器學習相對上是結果導向的,結果就是一切,只要結果夠好,中間過程我通通不在意,所以我常常在節目說「黑盒子」,意思就是機器學習的過程非常難以解釋。
歡迎來我們官網、fb看看
📌史塔克實驗室官網:http://starklab.tw/
📌史塔克實驗室FB: https://www.facebook.com/starklab2020/
📌Podcasts:Apple: https://reurl.cc/D63Dz6
📌SoundOn: https://reurl.cc/n0OXad
📌Spotify :https://reurl.cc/Z71LrA
為什麼會看到廣告
    avatar-img
    110會員
    94內容數
    史塔克音近Stock,我們是一群喜歡研究股市市場並且利用機器學習分析的資料科學家,我們最常使用到Python來做量化投資,研究了一段時間的財經跟程式,希望能把我們自己分析的分析成果,和大家一起分享看看,並且和大家在這一條漫長的路一起學習成長!
    留言0
    查看全部
    avatar-img
    發表第一個留言支持創作者!
    前幾年看『華爾街日報』報導一件事,全球大數據資料的擴增跟應用正急速擴張當中,因為中國大陸的崛起還有人數的因素,以亞洲地區大數據相關產業最具獲利潛力。 從今之後,用大數據來獲取投資,是越來越常見到的事,高盛集團在2015年對新加坡大數據公司進行高達5,600萬美元的投資案,企圖從社群媒體、通訊APP得
    圖片來源:pexels 如果用到「預測」這個字眼,我覺得會讓民眾抱著明牌的高度期望 ,這非常要不得,畢竟如果了解人工智慧的原理,以及認知到市場的高度變化 『預測』,在MBA百科寫的給大家參考參考: 預測(forecasting)是預計未來事件的一門藝術,一門科學。它包含採集歷史數據並用某種數學模型來
    A.i人工智慧真的能預測股市嗎 ? 我們不免俗再提到機器學習,前幾年機器學習,人工智慧這些名詞非常的夯,引領風潮,全世界都在瘋狂,因為AlphaGo 打敗了無數個圍棋高手,開始炒熱機器學習。有人也許好奇,AlphaGo的技術不就是人工神經網路嗎,他的概念由來已久......
    其實 我標題很想下:   把高永夏打到退出棋壇的神秘高手 — Alphago
    這篇文章的標題有「預測」二字,但看完之後請大家思考一下,這種基於「統計學」、「機器學習」的預測方法,是否跟你心中的「預測」相差甚遠呢?
    在大數據以及科技的快速進展之下,會有許多傳統投資者對這種投資方式並不是很理解,並且對機器學習還有電腦來輔助感到不安,但我們要指出,這些並不是新概念,許多投資者已經在使用數據和某種形式的機器學習來分析市場資訊。  
    前幾年看『華爾街日報』報導一件事,全球大數據資料的擴增跟應用正急速擴張當中,因為中國大陸的崛起還有人數的因素,以亞洲地區大數據相關產業最具獲利潛力。 從今之後,用大數據來獲取投資,是越來越常見到的事,高盛集團在2015年對新加坡大數據公司進行高達5,600萬美元的投資案,企圖從社群媒體、通訊APP得
    圖片來源:pexels 如果用到「預測」這個字眼,我覺得會讓民眾抱著明牌的高度期望 ,這非常要不得,畢竟如果了解人工智慧的原理,以及認知到市場的高度變化 『預測』,在MBA百科寫的給大家參考參考: 預測(forecasting)是預計未來事件的一門藝術,一門科學。它包含採集歷史數據並用某種數學模型來
    A.i人工智慧真的能預測股市嗎 ? 我們不免俗再提到機器學習,前幾年機器學習,人工智慧這些名詞非常的夯,引領風潮,全世界都在瘋狂,因為AlphaGo 打敗了無數個圍棋高手,開始炒熱機器學習。有人也許好奇,AlphaGo的技術不就是人工神經網路嗎,他的概念由來已久......
    其實 我標題很想下:   把高永夏打到退出棋壇的神秘高手 — Alphago
    這篇文章的標題有「預測」二字,但看完之後請大家思考一下,這種基於「統計學」、「機器學習」的預測方法,是否跟你心中的「預測」相差甚遠呢?
    在大數據以及科技的快速進展之下,會有許多傳統投資者對這種投資方式並不是很理解,並且對機器學習還有電腦來輔助感到不安,但我們要指出,這些並不是新概念,許多投資者已經在使用數據和某種形式的機器學習來分析市場資訊。  
    你可能也想看
    Google News 追蹤
    Thumbnail
    徵的就是你 🫵 超ㄅㄧㄤˋ 獎品搭配超瞎趴的四大主題,等你踹共啦!還有機會獲得經典的「偉士牌樂高」喔!馬上來參加本次的活動吧!
    Thumbnail
    隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
    Thumbnail
    特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
    Thumbnail
    Tengr.ai 圖生圖 咒語:Pick up Robot
    Microsoft Azure AI 900 證照,把準備資料整理分享給大家。 AI 是可模仿人類行為與能力的軟體,主要的工作包含: 機器學習:這通常是 AI 系統的基礎,且是「指導」電腦模型進行預測並從資料中得出結論的方式 電腦視覺:透過相機、影片和影像,以視覺方式解譯世界的 AI 功能
    Thumbnail
    STP分析—市場細分、目標市場選擇和市場定位—不僅是行銷理論的核心,同時也可以是學術寫作和發表的強大工具。特別是在機器學習這一跨學科領域,運用STP分析可以明顯提高研究的影響力和可讀性。本文分享如何運用STP分析來優化機器學習的學術研究和寫作。
    機器學習是什麼? 簡單來說,機器學習就是訓練機器尋找Function的一段過程,而這個Function可以幫助我們解決我們遇到的問題,或是幫助我們
    大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
    今天從行銷課堂上聽到了品牌定位的STP分析,十分有趣。 STP分別表示 - Segmentation 市場細分 - Targeting 目標市場選擇 - Positioning 市場定位 雖然STP分析本身是行銷理論, 但我發現STP分析用在學術研究以及學術寫作也相當適合。
    Thumbnail
    我們常把研究分成量化與質性兩種不同的方法(當然不止這兩種方法),其中量化分析主要在討論變數與變數的關係,而質性分析則在變數間在的互動過程與事件。因此通常在進行質性研究時,我們需要收集大量田野調查或訪談資料。做過訪談的人都知道,訪談後需要反覆的聆聽訪談錄音並將其轉化為訪談逐字稿,這是一個大工程,還好現
    Thumbnail
    本文會利用sklearn引入breast_cancer datasets來訓練,在處理數據的部份,特徵工程用兩種方式去做處理,分別是特徵選取與特徵萃取的方式去做比較。 特徵選取的方法中,使用了KNN 分類器來選出最重要的兩個特徵 特徵萃取的方法中,使用了PCA降維
    Thumbnail
    Sequential Feature Selection(SFS) 用中文來解釋為,逐一特徵選取訓練,找出最重要的特徵,以提高模型的性能和效率 SFS 的一些用途包括: 維度縮減: 在高維度數據中,許多特徵可能是多餘或不重要的,使用 SFS 可以找到最能代表數據的特徵,從而減少計算和記憶體需求
    Thumbnail
    徵的就是你 🫵 超ㄅㄧㄤˋ 獎品搭配超瞎趴的四大主題,等你踹共啦!還有機會獲得經典的「偉士牌樂高」喔!馬上來參加本次的活動吧!
    Thumbnail
    隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
    Thumbnail
    特徵工程是機器學習中的核心技術,通過將原始數據轉換為有意義的特徵,以提升模型的準確性和穩定性。常見的特徵工程方法包括異常值檢測、特徵轉換、特徵縮放、特徵表示、特徵選擇和特徵提取。本文將深入探討這些方法的適用情況及具體實施流程,以幫助讀者有效利用特徵工程來優化機器學習模型表現。
    Thumbnail
    Tengr.ai 圖生圖 咒語:Pick up Robot
    Microsoft Azure AI 900 證照,把準備資料整理分享給大家。 AI 是可模仿人類行為與能力的軟體,主要的工作包含: 機器學習:這通常是 AI 系統的基礎,且是「指導」電腦模型進行預測並從資料中得出結論的方式 電腦視覺:透過相機、影片和影像,以視覺方式解譯世界的 AI 功能
    Thumbnail
    STP分析—市場細分、目標市場選擇和市場定位—不僅是行銷理論的核心,同時也可以是學術寫作和發表的強大工具。特別是在機器學習這一跨學科領域,運用STP分析可以明顯提高研究的影響力和可讀性。本文分享如何運用STP分析來優化機器學習的學術研究和寫作。
    機器學習是什麼? 簡單來說,機器學習就是訓練機器尋找Function的一段過程,而這個Function可以幫助我們解決我們遇到的問題,或是幫助我們
    大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
    今天從行銷課堂上聽到了品牌定位的STP分析,十分有趣。 STP分別表示 - Segmentation 市場細分 - Targeting 目標市場選擇 - Positioning 市場定位 雖然STP分析本身是行銷理論, 但我發現STP分析用在學術研究以及學術寫作也相當適合。
    Thumbnail
    我們常把研究分成量化與質性兩種不同的方法(當然不止這兩種方法),其中量化分析主要在討論變數與變數的關係,而質性分析則在變數間在的互動過程與事件。因此通常在進行質性研究時,我們需要收集大量田野調查或訪談資料。做過訪談的人都知道,訪談後需要反覆的聆聽訪談錄音並將其轉化為訪談逐字稿,這是一個大工程,還好現
    Thumbnail
    本文會利用sklearn引入breast_cancer datasets來訓練,在處理數據的部份,特徵工程用兩種方式去做處理,分別是特徵選取與特徵萃取的方式去做比較。 特徵選取的方法中,使用了KNN 分類器來選出最重要的兩個特徵 特徵萃取的方法中,使用了PCA降維
    Thumbnail
    Sequential Feature Selection(SFS) 用中文來解釋為,逐一特徵選取訓練,找出最重要的特徵,以提高模型的性能和效率 SFS 的一些用途包括: 維度縮減: 在高維度數據中,許多特徵可能是多餘或不重要的,使用 SFS 可以找到最能代表數據的特徵,從而減少計算和記憶體需求