解密 AI 與資料科學 (二) : AI 的類型與實戰場景

更新於 2024/07/19發佈於 2024/07/19閱讀時間約 4 分鐘

前一篇文章，介紹了 AI 領域的分工以及不同崗位上的關鍵腳色。這篇文章要介紹 AI 的種類/類型，及其各種實戰應用的場域。

｜資料科學與AI的戰場

人們對 AI 的普遍理解，可能是像 ChatGPT 那類能講講話、畫圖、創作影片的工具。但其實 AI 種類很多，任務各不相同，而且早已深入生活很多層面了。借款人違約預測、都市交通管理、生成假圖、客服小幫手……。所以想投入 AI 領域的研發和技術底層，得先了解戰場，戰場決定學習方向。

就我心得，AI 任務主要有三類，不同任務會面對的資料型態，甚至採用的經典演算法都不相同。第一種是數值型資料，顧名思義其資料都是各種連續或離散的數字，銀行的違約機率預測、工廠機具磨損率、複雜機械壞損原因預測等，都是AI的任務。這類任務蠻經常使用經典機器學習演算法，當然近年來熱門的深度學習跟強化學習也不是沒機會，應用場景畢竟不是死的。而關於這些算法，我後面篇章會再介紹詳細一點。

這類任務中又有一個獨特的議題──時間序列。時間序列資料是按照時間戳記做記錄的，像是價格、天氣預測或計量經濟數據都屬於這類。此類數學型態特殊，每一筆資料之間都有連動與相關性，因此影響或破壞傳統統計的特性﹝假設每筆樣本互相獨立﹞，也就衍伸出專門的研究方法。近年來很多學派與方法，如貝葉斯和深度學習等都投入應用。這也是我從大學到工作一直主攻的。

第二類我打算用 NLP﹝Natural Language Processing，自然語言處理﹞來定義。這類任務主要讓電腦能解譯、理解和操作人類的語言。人類語言的類型沒有明確規範，總之是包含聽說讀寫的層面，技術上來說就是文字、聲音和影片等非結構化的數據。

其實大家對此應該最熟悉，我們會議軟體裡面的聲音轉文字、新聞的情緒分析和智能小客服都在 NLP 的範圍，包含近年奮發突起的 ChatGPT 也是其代表作。統計為基礎的模型/算法曾在這領域大行其道，像是馬可夫鍊﹝我曾經示範使用此模型於 NLP，請見此﹞。而後深度學習的神經網路和 Transformer 框架成為這個任務的主宰。

第三類是電腦影像辨識，其任務專注在辨識和分割圖片特定人物、場景和物體。這領域當前也是深度學習/神經網路的天下。這類 AI 能夠辨認圖片、製造合成圖片、分割出圖片中的特徵，或是透過物體與物體之間的關係推知場景的意涵。我記得我遇過有研究生就在處理這類任務，要預測照片中是垃圾或不是垃圾的物體，而人物身分辨識和超市商品識別，已經是常見的應用。醫療領域可以用來分割病患X光圖片中的異常部分。

其實還有隱藏的一類，只是很難歸類到以上任一，就是近年來盛行的強化學習﹝精確來說這不是一類任務，而是技術﹞。2016年打敗韓國棋王的 AlphaGo，還有進階版的 AlphaGo Zero，就是這一類型的 AI。強化學習方法強調個體 (agent) 與環境的互動和應對，訓練過程基於獎勵訊號而訓練 AI 針對環境變化採取合乎目標的行動。

也就是說這類 AI 非常彈性，面對環境的變化例如各種奇形怪狀的房間，或是棋手多變的棋路，都能做出合宜應對。ChatGPT 的訓練環節也包含了強化學習﹝讓他講人話的部分﹞。

｜AI 長怎樣，取決於人們怎麼理解「智慧」

之所以會有這麼多 AI 演算法，各種奇形怪狀的神經網路、強化學習等等，是因為近年來世界克服了早期電腦算力的缺陷，所以有些方法能大行其道。AI 發展的早期歷程，大家對於仿生智慧的想像也不一樣，所以衍伸出很多 AI 學派，主流是三個：符號主義、連接主義和行為主義。

符號主義構建的系統基於明確決策邏輯與豐富的知識/資訊，人類的行為可以投過符號、條件和邏輯表達，他們想像的 AI 也應該類似那樣；連接主義是神經網路的開山者，打下今天 AI 機器學習的重要基礎。他們看 AI 的行動更像是神經元之間的資訊傳遞，資訊傳遞有壓縮、有權重，以及有觸發順序，在一系列處理後吐出預測結果/行動。在算力充足的時代這個學派的思想更受好評。

行為主義則對應到前述的強化學習，行為來自對環境的感知和反應。最終在這個算力大爆發﹝感謝NVIDIA和上下游軟硬體產業﹞的時代，神經網路更和行為主義走在一起，產生交集了。

不過學派之間的起起落落大是大非，就不是本章節的重點。大概講個古，知道一些 AI 的演變就好，也許能幫助我們了解眼前這些技術的本質是什麼，或許也能進一步幫我們想像 AI 未來會是哪種形式進展。

實務上不同 AI 任務會採用的方法、演算法，大概就是以上介紹的，隨著環境的變化、資料變異跟需求複雜度，什麼方法會主宰何種領域任務，還有很多變數，選擇喜歡戰場，多多關注學術和技術討論，會很有幫助。

本篇就講到這裡，接下來我們要介紹一系列 AI 底層的專業領域。

留言

留言分享你的想法！

Darren的沙龍

14會員

14內容數

大數據意味著什麼？數據科學背後有怎樣的mind set和技術？數據科學家又做些什麼？這些科技/技術，帶給我們什麼生活上和人文上的省思？這個專題會橫跨這些彼此相關的面向，避開生澀的專業詞彙，探索這些事情背後的樣貌。應該會是有趣的知識和想法分享﹝笑﹞

Darren的沙龍的其他內容

2024/08/31

解密 AI 與資料科學 (三) : 統計學──AI 背後沉默的英雄

文章主攻四大領域：機率與統計、計量經濟和量化金融分析。以機率統計為核心主幹，詳加說明其精神與應用。也會輔以其餘三個領域的介紹作為統計實例。統計學是AI / 機器學習背後的英雄，假設檢定與統計分布是其兩大特色，前者找出彼此相互關聯的變數；後者則幫助我們進行模擬和抽樣，幫助我們找尋最優解或近似真實值。

2024/08/31

解密 AI 與資料科學 (三) : 統計學──AI 背後沉默的英雄

2024/07/05

解密 AI 與資料科學 (一) : AI 開發鏈, 跨領域溝通 & 最具未來性的職業

本文談及資料科學的領域與分工。首先是建造一個AI的研發流程，資料收集到 AI 模型訓練的過程，AI經歷這一切流程被創造出來並產生價值；再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。

2024/07/05

解密 AI 與資料科學 (一) : AI 開發鏈, 跨領域溝通 & 最具未來性的職業

2024/06/23

是時候再讀《魔球》：人類存在的價值與大數據革命下的觀念衝突

魔球記載MLB奧克蘭運動家隊的真實故事。該隊以小搏大，用數據思維選出一批從未被看好的球員，打出最瘋狂的佳績。這本是經典老書了，書中細節大家已多有討論，我只著重在「統計數據」與「新舊觀念衝突」兩部分。透過魔球的精神，反思今天科技時代下「人」或「人才」的價值，我也會表達我對一個大趨勢形成的看法。

2024/06/23

是時候再讀《魔球》：人類存在的價值與大數據革命下的觀念衝突

看更多

你可能也想看

林的怪東西集中地

人工智慧與機器學習

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

#學習#人工智慧#數據

2024/07/30

林的怪東西集中地

人工智慧與機器學習

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

#學習#人工智慧#數據

2024/07/30

熙哥生意之道

人工智能AI和機器學習ML：業務升級的新動能

在當今快速發展的技術時代，人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程，AI和ML的應用範圍日益廣泛，為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢？

#AI#ML#人工智能

2024/07/26

熙哥生意之道

人工智能AI和機器學習ML：業務升級的新動能

#AI#ML#人工智能

2024/07/26

Darren的沙龍

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

本文要探討AI的任務與實戰場景。AI技術已深入生活各層面，從違約預測到都市交通管理。AI任務主要有三類：數值型資料處理、自然語言處理（NLP）和電腦影像辨識。時間序列資料和強化學習方法（如AlphaGo）也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化，了解這些基礎有助選擇適合研究方向

#ChatGPT#AlphaGo#人工智慧

2024/07/19