【深智書摘】機器學習(machine learning)是什麼?

更新於 發佈於 閱讀時間約 7 分鐘
人們透過機器學習(machine learning),試著讓電腦能夠從大量資料中學習成長,不僅可以運用在生活各方面的功能提升,甚至還能透過這些既有的資料,起到鑑往知來的效果,處在當今資訊爆炸的時代,正是你開始學機器學習的最好時機!


1. 機器學習的特點

機器學習是關於電腦基於資料建構機率統計模型,並運用模型對資料進行預測與分析的一門學科。機器學習也稱為統計機器學習(statistical machine learning)。

機器學習的主要特點是:

(1)機器學習以電腦及網路為平臺,是建立在電腦及網路上的;
(2)機器學習以資料為研究標的,是資料驅動的學科;
(3)機器學習的目的是對資料進行預測與分析;
(4)機器學習以方法為中心,機器學習方法建構模型並應用模型進行預測與分析;
(5)機器學習是機率論、統計學、資訊理論、計算理論、最佳化理論及電腦科學等多個領域的交叉學科,並且在發展中逐步形成獨自的理論系統與方法論。

赫爾伯特⋅ 西蒙(Herbert A. Simon)曾對「學習」舉出以下定義:「如果一個系統能夠透過執行某個過程改進它的性能,這就是學習。」按照這一觀點,機器學習就是電腦系統透過運用資料及統計方法提高系統性能的機器學習。


2. 機器學習的標的

機器學習研究的標的是資料(data)。它從資料出發,提取資料的特徵,抽象出資料的模型,發現資料中的知識,又回到對資料的分析與預測中去。作為機器學習的標的,資料是多樣的,包括存在於電腦及網路上的各種數字、文字、影像、視訊、音訊資料以及它們的組合。

機器學習關於資料的基本假設是同質資料具有一定的統計規律性,這是機器學習的前提。這裡的同質資料是指具有某種共同性質的資料,例如英文文章,網際網路網頁,資料庫中的資料等。由於它們具有統計規律性,所以可以用機率統計方法處理它們。比如,可以用隨機變數描述資料中的特徵,用機率分佈描述資料的統計規律。在機器學習中,以變數或變數組表示資料。資料分為由連續變數和離散變數表示的類型。


3. 機器學習的目的

機器學習用於對資料的預測與分析,特別是對未知新資料的預測與分析。對資料的預測可以使電腦更加智慧化,或說使電腦的某些性能得到提高;對資料的分析可以讓人們獲取新的知識,給人們帶來新的發現。

對資料的預測與分析是透過建構機率統計模型實現的。機器學習總的目標就是考慮學習什麼樣的模型和如何學習模型,以使模型能對資料進行準確地預測與分析,同時也要考慮盡可能地提高學習效率。


4. 機器學習的方法

機器學習的方法是基於資料建構機率統計模型從而對資料進行預測與分析。機器學習由監督學習(supervised learning)、非監督學習(unsupervised learning)、和強化學習(reinforcement learning)等組成。

機器學習方法可以概括如下:從給定的、有限的,用於學習的訓練資料(training data)集合出發,假設資料是獨立同分佈產生的;並且假設要學習的模型屬於某個函數的集合,稱為假設空間(hypothesis space);應用某個評價準則(evaluation criterion),從假設空間中選取一個最佳模型,使它對已知的訓練資料及未知的測試資料(test data)在替定的評價準則下有最佳的預測;最佳模型的選取由演算法實現。這樣,機器學習方法包括模型的假設空間,模型選擇的準則,以及模型學習的演算法。稱其為機器學習方法的三要素,簡稱為模型(model)、策略(strategy)、演算法(algorithm)。

實現機器學習方法的步驟如下:

(1)得到一個有限的訓練資料集合;
(2)確定包含所有可能的模型的假設空間,即學習模型的集合;
(3)確定模型選擇的準則,即學習的策略;
(4)實現求解最佳模型的演算法,即學習的演算法;
(5)透過學習方法選擇最佳模型;
(6)利用學習的最佳模型對新資料進行預測或分析。


5. 機器學習的研究

機器學習研究一般包括機器學習方法,機器學習理論及機器學習應用三個方面。機器學習方法的研究旨在開發新的學習方法;機器學習理論的研究在於探求機器學習方法的有效性與效率,以及機器學習的基本理論問題;機器學習應用的研究主要考慮將機器學習方法應用到實際問題中去,解決實際問題。


6. 機器學習的重要性。

近二十年來,機器學習無論是在理論還是在應用方面都獲得了巨大的發展,有許多重大突破,機器學習已被成功地應用到人工智慧、圖型辨識、資料探勘、自然語言處理、語音處理、計算視覺、資訊檢索、生物資訊等許多電腦應用領域中,並且成為這些領域的核心技術。人們確信,機器學習將在今後的科學發展和技術應用中發揮越來越大的作用。

機器學習學科在科學技術中的重要性主要表現在以下幾個方面:

(1)機器學習是處理巨量資料的有效方法。我們處於一個資訊爆炸的時代。巨量資料的處理與利用是人們必然的需求。現實中的資料不但規模大,而且常常具有不確定性,機器學習往往是處理這類資料最強有力的工具。
(2)機器學習是計算機智慧化的有效方法。智慧化是電腦發展的必然趨勢,也是電腦技術研究與開發的主要目標。近幾十年來,人工智慧等領域的研究證明,利用機器學習模仿人類智慧的方法,雖有一定的局限性,還是實現這一目標的最有效方法。
(3)機器學習是電腦科學發展的重要組成部分。可以認為電腦科學由三維組成:系統、計算、資訊。機器學習主要屬於資訊這一維,並在其中有著核心作用。

raw-image

本文擷取自《理論到實作都一清二楚 - 機器學習原理深究》,本書收錄了關於機器學習最重要的統計應用及數學原理,全書分成了監督學習和無監督學習,以及深度學習三大區塊。不論您是機器學習相關學習者;從事資訊檢索、自然語言處理等領域的學生與研究人員;或是從事機器學習的專業研究人員,這都是一本深入淺出的實用書籍。

留言
avatar-img
留言分享你的想法!
avatar-img
深智數位的沙龍
9會員
25內容數
深智數位的沙龍的其他內容
2023/08/02
在機器學習中,我們的目標是找到一種能夠最好地描述數據的模型。例如,在迴歸問題中,我們希望找到一種函數,該函數能以一種對我們的目標變數(例如:銷售量、股票價格等) 的最佳估計的方式,描述輸入特徵(例如:廣告支出、市場狀況等)。
Thumbnail
2023/08/02
在機器學習中,我們的目標是找到一種能夠最好地描述數據的模型。例如,在迴歸問題中,我們希望找到一種函數,該函數能以一種對我們的目標變數(例如:銷售量、股票價格等) 的最佳估計的方式,描述輸入特徵(例如:廣告支出、市場狀況等)。
Thumbnail
2023/07/21
  在程式設計中,變數(Variable)是一個代表內存位置的符號,用於存儲和操作數據。它是一個內存單元,可以存儲各種類型的數據,例如整數、浮點數、字符串等。變數的值可以在程式執行時改變,並在需要時被讀取。 變數是暫時存放資料用的,可以將變數想像成是一個箱子,箱子裡面可以是空的,
Thumbnail
2023/07/21
  在程式設計中,變數(Variable)是一個代表內存位置的符號,用於存儲和操作數據。它是一個內存單元,可以存儲各種類型的數據,例如整數、浮點數、字符串等。變數的值可以在程式執行時改變,並在需要時被讀取。 變數是暫時存放資料用的,可以將變數想像成是一個箱子,箱子裡面可以是空的,
Thumbnail
2023/05/17
新手在使用ChatGPT 時,對於ChatGPT的回答普遍印象是廢話連篇,而這通常是因為沒有給出足夠清晰的指示所導致,以下將介紹3個讓你跟ChatGPT溝通更有效的提示技巧,幫助讀者快速掌握提升回答品質的秘訣!
Thumbnail
2023/05/17
新手在使用ChatGPT 時,對於ChatGPT的回答普遍印象是廢話連篇,而這通常是因為沒有給出足夠清晰的指示所導致,以下將介紹3個讓你跟ChatGPT溝通更有效的提示技巧,幫助讀者快速掌握提升回答品質的秘訣!
Thumbnail
看更多
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
       最近在改模擬考作文,題目與人工智慧相關,改了幾篇後發現,不少學生對人工智慧的認識有一點模糊,在沉重的課業壓力下可能也比較沒有辦法深入去研究或討論,但我認為人工智慧的相關議題在近期仍會是熱門的考試題材,所以利用這篇文分享一些我的讀書心得跟筆記。
Thumbnail
       最近在改模擬考作文,題目與人工智慧相關,改了幾篇後發現,不少學生對人工智慧的認識有一點模糊,在沉重的課業壓力下可能也比較沒有辦法深入去研究或討論,但我認為人工智慧的相關議題在近期仍會是熱門的考試題材,所以利用這篇文分享一些我的讀書心得跟筆記。
Thumbnail
在當今的製造業環境中,準確、高效且靈活的生產流程已成為重要的競爭優勢。智慧製造,作為工業4.0的核心部分,被視為解決這些挑戰的關鍵。本文將深入探討智慧製造的概念、運作方式以及如何實現智慧製造的步驟。 1. 何謂智慧製造 智慧製造是指透過數據分析、人工智慧(AI)、機器學習(ML)和其他先進技術,
Thumbnail
在當今的製造業環境中,準確、高效且靈活的生產流程已成為重要的競爭優勢。智慧製造,作為工業4.0的核心部分,被視為解決這些挑戰的關鍵。本文將深入探討智慧製造的概念、運作方式以及如何實現智慧製造的步驟。 1. 何謂智慧製造 智慧製造是指透過數據分析、人工智慧(AI)、機器學習(ML)和其他先進技術,
Thumbnail
我們這個系列就是希望以非常科普的角度來解釋人工智慧。本篇要釐清人工智慧(AI: Artificial Intelligence),機器學習 Machine Learning, 深度學習Deep Learning,另外還有類神經網路,到底互相是什麼關係呢?
Thumbnail
我們這個系列就是希望以非常科普的角度來解釋人工智慧。本篇要釐清人工智慧(AI: Artificial Intelligence),機器學習 Machine Learning, 深度學習Deep Learning,另外還有類神經網路,到底互相是什麼關係呢?
Thumbnail
這是一本講述人工智慧的發展,以及企業在導入人工智慧會遇到的困境,和擁抱人工智慧所需要具備的條件,給身在台灣的各位一個思考的方向,是一本很值得一讀的書。
Thumbnail
這是一本講述人工智慧的發展,以及企業在導入人工智慧會遇到的困境,和擁抱人工智慧所需要具備的條件,給身在台灣的各位一個思考的方向,是一本很值得一讀的書。
Thumbnail
這本書於2016年9月發行,距今已經過了6.5年。夯到快不行的ChatGPT鋪天蓋地,像這樣的類神經網路會偷走我們的工作嗎 ?
Thumbnail
這本書於2016年9月發行,距今已經過了6.5年。夯到快不行的ChatGPT鋪天蓋地,像這樣的類神經網路會偷走我們的工作嗎 ?
Thumbnail
人們透過機器學習(machine learning),試著讓電腦能夠從大量資料中學習成長,不僅可以運用在生活各方面的功能提升,甚至還能透過這些既有的資料,起到鑑往知來的效果,處在當今資訊爆炸的時代,正是你開始學機器學習的最好時機!
Thumbnail
人們透過機器學習(machine learning),試著讓電腦能夠從大量資料中學習成長,不僅可以運用在生活各方面的功能提升,甚至還能透過這些既有的資料,起到鑑往知來的效果,處在當今資訊爆炸的時代,正是你開始學機器學習的最好時機!
Thumbnail
麻省理工學院史隆管理學院首席研究科學家,安德魯.麥克費在這篇2017年發表的文章中,說明了人工智慧對於組織與企業來說,能做到、不能做到什麼,以及帶來哪些新的風險與機會?
Thumbnail
麻省理工學院史隆管理學院首席研究科學家,安德魯.麥克費在這篇2017年發表的文章中,說明了人工智慧對於組織與企業來說,能做到、不能做到什麼,以及帶來哪些新的風險與機會?
Thumbnail
兼回答觀眾來信問題 經過上一次的文章之後,棒棒的觀眾們依然有問題丟過來 有些觀眾的問題都滿認真的,也不好像其他節目一樣 在節目上講講就沒了,所以依然用文章的方式帶給大家一點東西。 我們先來看看觀眾疑問: 1. 是不是機器人預測的結果,都是依照revenue? 特徵是什麼? 特徵提取又是什麼?
Thumbnail
兼回答觀眾來信問題 經過上一次的文章之後,棒棒的觀眾們依然有問題丟過來 有些觀眾的問題都滿認真的,也不好像其他節目一樣 在節目上講講就沒了,所以依然用文章的方式帶給大家一點東西。 我們先來看看觀眾疑問: 1. 是不是機器人預測的結果,都是依照revenue? 特徵是什麼? 特徵提取又是什麼?
Thumbnail
為什麼管理機器學習(ML)產品比一般軟體困難?因為開發ML產品的不確定性和可變性更高;而一般軟體工程則是為機器編寫規則,原本就有高度的確定性。而ML系統可以自行學習,所以並不需要人來編寫規則。總之,「實驗」就是開發ML產品的關鍵。
Thumbnail
為什麼管理機器學習(ML)產品比一般軟體困難?因為開發ML產品的不確定性和可變性更高;而一般軟體工程則是為機器編寫規則,原本就有高度的確定性。而ML系統可以自行學習,所以並不需要人來編寫規則。總之,「實驗」就是開發ML產品的關鍵。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News