【深智書摘】機器學習(machine learning)是什麼?

更新於 發佈於 閱讀時間約 6 分鐘
人們透過機器學習(machine learning),試著讓電腦能夠從大量資料中學習成長,不僅可以運用在生活各方面的功能提升,甚至還能透過這些既有的資料,起到鑑往知來的效果,處在當今資訊爆炸的時代,正是你開始學機器學習的最好時機!

1. 機器學習的特點

機器學習是關於電腦基於資料建構機率統計模型,並運用模型對資料進行預測與分析的一門學科。機器學習也稱為統計機器學習(statistical machine learning)。
機器學習的主要特點是:
(1)機器學習以電腦及網路為平臺,是建立在電腦及網路上的;
(2)機器學習以資料為研究標的,是資料驅動的學科;
(3)機器學習的目的是對資料進行預測與分析;
(4)機器學習以方法為中心,機器學習方法建構模型並應用模型進行預測與分析;
(5)機器學習是機率論、統計學、資訊理論、計算理論、最佳化理論及電腦科學等多個領域的交叉學科,並且在發展中逐步形成獨自的理論系統與方法論。
赫爾伯特⋅ 西蒙(Herbert A. Simon)曾對「學習」舉出以下定義:「如果一個系統能夠透過執行某個過程改進它的性能,這就是學習。」按照這一觀點,機器學習就是電腦系統透過運用資料及統計方法提高系統性能的機器學習。

2. 機器學習的標的

機器學習研究的標的是資料(data)。它從資料出發,提取資料的特徵,抽象出資料的模型,發現資料中的知識,又回到對資料的分析與預測中去。作為機器學習的標的,資料是多樣的,包括存在於電腦及網路上的各種數字、文字、影像、視訊、音訊資料以及它們的組合。
機器學習關於資料的基本假設是同質資料具有一定的統計規律性,這是機器學習的前提。這裡的同質資料是指具有某種共同性質的資料,例如英文文章,網際網路網頁,資料庫中的資料等。由於它們具有統計規律性,所以可以用機率統計方法處理它們。比如,可以用隨機變數描述資料中的特徵,用機率分佈描述資料的統計規律。在機器學習中,以變數或變數組表示資料。資料分為由連續變數和離散變數表示的類型。

3. 機器學習的目的

機器學習用於對資料的預測與分析,特別是對未知新資料的預測與分析。對資料的預測可以使電腦更加智慧化,或說使電腦的某些性能得到提高;對資料的分析可以讓人們獲取新的知識,給人們帶來新的發現。
對資料的預測與分析是透過建構機率統計模型實現的。機器學習總的目標就是考慮學習什麼樣的模型和如何學習模型,以使模型能對資料進行準確地預測與分析,同時也要考慮盡可能地提高學習效率。

4. 機器學習的方法

機器學習的方法是基於資料建構機率統計模型從而對資料進行預測與分析。機器學習由監督學習(supervised learning)、非監督學習(unsupervised learning)、和強化學習(reinforcement learning)等組成。
機器學習方法可以概括如下:從給定的、有限的,用於學習的訓練資料(training data)集合出發,假設資料是獨立同分佈產生的;並且假設要學習的模型屬於某個函數的集合,稱為假設空間(hypothesis space);應用某個評價準則(evaluation criterion),從假設空間中選取一個最佳模型,使它對已知的訓練資料及未知的測試資料(test data)在替定的評價準則下有最佳的預測;最佳模型的選取由演算法實現。這樣,機器學習方法包括模型的假設空間,模型選擇的準則,以及模型學習的演算法。稱其為機器學習方法的三要素,簡稱為模型(model)、策略(strategy)、演算法(algorithm)。
實現機器學習方法的步驟如下:
(1)得到一個有限的訓練資料集合;
(2)確定包含所有可能的模型的假設空間,即學習模型的集合;
(3)確定模型選擇的準則,即學習的策略;
(4)實現求解最佳模型的演算法,即學習的演算法;
(5)透過學習方法選擇最佳模型;
(6)利用學習的最佳模型對新資料進行預測或分析。

5. 機器學習的研究

機器學習研究一般包括機器學習方法,機器學習理論及機器學習應用三個方面。機器學習方法的研究旨在開發新的學習方法;機器學習理論的研究在於探求機器學習方法的有效性與效率,以及機器學習的基本理論問題;機器學習應用的研究主要考慮將機器學習方法應用到實際問題中去,解決實際問題。

6. 機器學習的重要性。

近二十年來,機器學習無論是在理論還是在應用方面都獲得了巨大的發展,有許多重大突破,機器學習已被成功地應用到人工智慧、圖型辨識、資料探勘、自然語言處理、語音處理、計算視覺、資訊檢索、生物資訊等許多電腦應用領域中,並且成為這些領域的核心技術。人們確信,機器學習將在今後的科學發展和技術應用中發揮越來越大的作用。
機器學習學科在科學技術中的重要性主要表現在以下幾個方面:
(1)機器學習是處理巨量資料的有效方法。我們處於一個資訊爆炸的時代。巨量資料的處理與利用是人們必然的需求。現實中的資料不但規模大,而且常常具有不確定性,機器學習往往是處理這類資料最強有力的工具。
(2)機器學習是計算機智慧化的有效方法。智慧化是電腦發展的必然趨勢,也是電腦技術研究與開發的主要目標。近幾十年來,人工智慧等領域的研究證明,利用機器學習模仿人類智慧的方法,雖有一定的局限性,還是實現這一目標的最有效方法。
(3)機器學習是電腦科學發展的重要組成部分。可以認為電腦科學由三維組成:系統、計算、資訊。機器學習主要屬於資訊這一維,並在其中有著核心作用。
《理論到實作都一清二楚 - 機器學習原理深究》
本文擷取自《理論到實作都一清二楚 - 機器學習原理深究》,本書收錄了關於機器學習最重要的統計應用及數學原理,全書分成了監督學習和無監督學習,以及深度學習三大區塊。不論您是機器學習相關學習者;從事資訊檢索、自然語言處理等領域的學生與研究人員;或是從事機器學習的專業研究人員,這都是一本深入淺出的實用書籍。
即將進入廣告,捲動後可繼續閱讀
為什麼會看到廣告
avatar-img
9會員
25內容數
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
深智數位的沙龍 的其他內容
Qt是軟體開發領域中非常著名的C++視覺化開發平台,能夠為應用程式開發者提供建立專業圖形化使用者介面所需的所有功能。QT有很完整的硬體、作業系統、視窗元件的處理,它是完全物件導向的,很容易擴充,並且可應用於元件程式設計,也是目前流行的Linux 桌面環境KDE 的基礎。
正所謂「套件」如其名,Pandas 運算套件在資料處理領域的受歡迎程度完全可與善於賣萌的大熊貓相媲美。當然,Pandas 的名稱其實來自經濟學術語—面板資料 (panel data)。 眾所皆知,金融領域存在巨量的資料處理與分析,而Pandas 運算套件就是當時就職於AQR Capi
最近,RIS因其能夠透過智慧地重構無線傳播環境來增強無線網路的容量和覆蓋範圍的潛力而受到極大關注,被認為是6G通訊網路中一項有前途的技術。在此背景下,廣大研究者和企業對RIS進行了大量的研究,包括實現其可重構性的硬體材料、設定的波束成形技術和資源設定技術等。 智慧超表面基本原理 發展歷史和研究現狀
有此一說:身為軟體開發工程師,你可以沒有Facebook,但不能沒有GitHub。如果Git給予軟體開發工程師版本控制的能力,那麼GitHub則帶領你遨遊開源世界的美麗。 全世界最大的原始碼管理平台與開放原始碼社群 檢視公開軟體套件內程式碼,理解邏輯並正確使用 搜尋方便的套件與相關資源加速軟體開發
  卷積神經網路(Convolutional Neural Networks,CNN),其應用包括影像辨識、自然語言處理(NLP)等領域。若能從其發展至今的脈絡開始了解,必定可以更進一步地理解專案的想法,將該技術掌握得更得心應手。以下就其發展和結構分別詳細說明。 1. LeNet
Kubernetes是什麼? 1. Kubernetes是Google嚴格保密十幾年的秘密武器——Borg的一個開放原始碼版本。 2. Kubernetes是一個開放的開發平台。 3. Kubernetes是一個完備的分散式系統支撐平台。
Qt是軟體開發領域中非常著名的C++視覺化開發平台,能夠為應用程式開發者提供建立專業圖形化使用者介面所需的所有功能。QT有很完整的硬體、作業系統、視窗元件的處理,它是完全物件導向的,很容易擴充,並且可應用於元件程式設計,也是目前流行的Linux 桌面環境KDE 的基礎。
正所謂「套件」如其名,Pandas 運算套件在資料處理領域的受歡迎程度完全可與善於賣萌的大熊貓相媲美。當然,Pandas 的名稱其實來自經濟學術語—面板資料 (panel data)。 眾所皆知,金融領域存在巨量的資料處理與分析,而Pandas 運算套件就是當時就職於AQR Capi
最近,RIS因其能夠透過智慧地重構無線傳播環境來增強無線網路的容量和覆蓋範圍的潛力而受到極大關注,被認為是6G通訊網路中一項有前途的技術。在此背景下,廣大研究者和企業對RIS進行了大量的研究,包括實現其可重構性的硬體材料、設定的波束成形技術和資源設定技術等。 智慧超表面基本原理 發展歷史和研究現狀
有此一說:身為軟體開發工程師,你可以沒有Facebook,但不能沒有GitHub。如果Git給予軟體開發工程師版本控制的能力,那麼GitHub則帶領你遨遊開源世界的美麗。 全世界最大的原始碼管理平台與開放原始碼社群 檢視公開軟體套件內程式碼,理解邏輯並正確使用 搜尋方便的套件與相關資源加速軟體開發
  卷積神經網路(Convolutional Neural Networks,CNN),其應用包括影像辨識、自然語言處理(NLP)等領域。若能從其發展至今的脈絡開始了解,必定可以更進一步地理解專案的想法,將該技術掌握得更得心應手。以下就其發展和結構分別詳細說明。 1. LeNet
Kubernetes是什麼? 1. Kubernetes是Google嚴格保密十幾年的秘密武器——Borg的一個開放原始碼版本。 2. Kubernetes是一個開放的開發平台。 3. Kubernetes是一個完備的分散式系統支撐平台。
你可能也想看
Google News 追蹤
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
在當今的科技世界裡,機器學習已經成為我們生活中不可或缺的一部分。從你每天使用的手機應用程式,到網購時的商品推薦,這些背後都依賴於機器學習技術。機器學習的核心是讓電腦能夠自主學習,透過大量數據來進行模式分析,進而作出預測或決策。
Thumbnail
學習生成式AI,不僅僅是掌握幾個工具,而是從全方位了解AI的發展範疇及其潛力。我經常在企業教授AI課程時,會遇到HR詢問:某些工具用不上,可以不教嗎?當然可以,但如果同仁不了解生成式AI在「數位內容」上的廣泛應用,又如何掌握大語言模型的發展邊界?
Microsoft Azure AI 900 證照,把準備資料整理分享給大家。 AI 是可模仿人類行為與能力的軟體,主要的工作包含: 機器學習:這通常是 AI 系統的基礎,且是「指導」電腦模型進行預測並從資料中得出結論的方式 電腦視覺:透過相機、影片和影像,以視覺方式解譯世界的 AI 功能
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
人工智慧是什麼? 人工智慧(Artificial Intelligence, AI) 簡單來說,就是讓機器模仿人類的思考、學習和決策的能力。它就像是一個聰明的電腦程序,可以執行許多原本需要人類智慧才能完成的工作,例如: 語音辨識: 讓電腦聽懂人類的語言,像是 Siri、Google As
Thumbnail
AI的世界充滿了創新和潛力,涵蓋了許多領域,包括但不限於機器學習,自然語言處理、電腦視覺和機器人技術。AI對人類社會的影響是複雜而多層面的,既帶來了巨大的機遇,也提出了新的挑戰。社會需要在技術發展和倫理規範之間找到平衡,確保AI技術的應用能夠真正造福人類。
機器學習領域的專業人士可以從這篇文章中獲得寶貴的見解。 追求更大的數據集和更強大的模型一直是提升性能的核心策略。 以下是我在機器學習領域工作7年後的三個重大體悟。 ▋體悟1 - 大數據的重要性 自2009年ImageNet問世以來, 數據集的規模和質量對機器學習的影響越
在人工智能的發展歷程中,早期的研究主要側重於將解決問題的規則輸入計算機,試圖通過啟蒙運動理性的思路模擬人類的智能行為。然而,這條路逐漸變得艱難,因為規則過於繁多,無法應對複雜的情境和語境。在這個背景下,一些科學家轉向了神經網絡算法,試圖模擬人腦的感知能力。
機器學習是什麼? 簡單來說,機器學習就是訓練機器尋找Function的一段過程,而這個Function可以幫助我們解決我們遇到的問題,或是幫助我們
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
在當今的科技世界裡,機器學習已經成為我們生活中不可或缺的一部分。從你每天使用的手機應用程式,到網購時的商品推薦,這些背後都依賴於機器學習技術。機器學習的核心是讓電腦能夠自主學習,透過大量數據來進行模式分析,進而作出預測或決策。
Thumbnail
學習生成式AI,不僅僅是掌握幾個工具,而是從全方位了解AI的發展範疇及其潛力。我經常在企業教授AI課程時,會遇到HR詢問:某些工具用不上,可以不教嗎?當然可以,但如果同仁不了解生成式AI在「數位內容」上的廣泛應用,又如何掌握大語言模型的發展邊界?
Microsoft Azure AI 900 證照,把準備資料整理分享給大家。 AI 是可模仿人類行為與能力的軟體,主要的工作包含: 機器學習:這通常是 AI 系統的基礎,且是「指導」電腦模型進行預測並從資料中得出結論的方式 電腦視覺:透過相機、影片和影像,以視覺方式解譯世界的 AI 功能
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
人工智慧是什麼? 人工智慧(Artificial Intelligence, AI) 簡單來說,就是讓機器模仿人類的思考、學習和決策的能力。它就像是一個聰明的電腦程序,可以執行許多原本需要人類智慧才能完成的工作,例如: 語音辨識: 讓電腦聽懂人類的語言,像是 Siri、Google As
Thumbnail
AI的世界充滿了創新和潛力,涵蓋了許多領域,包括但不限於機器學習,自然語言處理、電腦視覺和機器人技術。AI對人類社會的影響是複雜而多層面的,既帶來了巨大的機遇,也提出了新的挑戰。社會需要在技術發展和倫理規範之間找到平衡,確保AI技術的應用能夠真正造福人類。
機器學習領域的專業人士可以從這篇文章中獲得寶貴的見解。 追求更大的數據集和更強大的模型一直是提升性能的核心策略。 以下是我在機器學習領域工作7年後的三個重大體悟。 ▋體悟1 - 大數據的重要性 自2009年ImageNet問世以來, 數據集的規模和質量對機器學習的影響越
在人工智能的發展歷程中,早期的研究主要側重於將解決問題的規則輸入計算機,試圖通過啟蒙運動理性的思路模擬人類的智能行為。然而,這條路逐漸變得艱難,因為規則過於繁多,無法應對複雜的情境和語境。在這個背景下,一些科學家轉向了神經網絡算法,試圖模擬人腦的感知能力。
機器學習是什麼? 簡單來說,機器學習就是訓練機器尋找Function的一段過程,而這個Function可以幫助我們解決我們遇到的問題,或是幫助我們
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別