前一篇文章,介紹了 AI 領域的分工以及不同崗位上的關鍵腳色。這篇文章要介紹 AI 的種類/類型,及其各種實戰應用的場域。
人們對 AI 的普遍理解,可能是像 ChatGPT 那類能講講話、畫圖、創作影片的工具。但其實 AI 種類很多,任務各不相同,而且早已深入生活很多層面了。借款人違約預測、都市交通管理、生成假圖、客服小幫手……。所以想投入 AI 領域的研發和技術底層,得先了解戰場,戰場決定學習方向。
就我心得,AI 任務主要有三類,不同任務會面對的資料型態,甚至採用的經典演算法都不相同。第一種是數值型資料,顧名思義其資料都是各種連續或離散的數字,銀行的違約機率預測、工廠機具磨損率、複雜機械壞損原因預測等,都是AI的任務。這類任務蠻經常使用經典機器學習演算法,當然近年來熱門的深度學習跟強化學習也不是沒機會,應用場景畢竟不是死的。而關於這些算法,我後面篇章會再介紹詳細一點。
這類任務中又有一個獨特的議題──時間序列。時間序列資料是按照時間戳記做記錄的,像是價格、天氣預測或計量經濟數據都屬於這類。此類數學型態特殊,每一筆資料之間都有連動與相關性,因此影響或破壞傳統統計的特性﹝假設每筆樣本互相獨立﹞,也就衍伸出專門的研究方法。近年來很多學派與方法,如貝葉斯和深度學習等都投入應用。這也是我從大學到工作一直主攻的。
第二類我打算用 NLP﹝Natural Language Processing,自然語言處理﹞來定義。這類任務主要讓電腦能解譯、理解和操作人類的語言。人類語言的類型沒有明確規範,總之是包含聽說讀寫的層面,技術上來說就是文字、聲音和影片等非結構化的數據。
其實大家對此應該最熟悉,我們會議軟體裡面的聲音轉文字、新聞的情緒分析和智能小客服都在 NLP 的範圍,包含近年奮發突起的 ChatGPT 也是其代表作。統計為基礎的模型/算法曾在這領域大行其道,像是馬可夫鍊﹝我曾經示範使用此模型於 NLP,請見此﹞。而後深度學習的神經網路和 Transformer 框架成為這個任務的主宰。
第三類是電腦影像辨識,其任務專注在辨識和分割圖片特定人物、場景和物體。這領域當前也是深度學習/神經網路的天下。這類 AI 能夠辨認圖片、製造合成圖片、分割出圖片中的特徵,或是透過物體與物體之間的關係推知場景的意涵。我記得我遇過有研究生就在處理這類任務,要預測照片中是垃圾或不是垃圾的物體,而人物身分辨識和超市商品識別,已經是常見的應用。醫療領域可以用來分割病患X光圖片中的異常部分。
其實還有隱藏的一類,只是很難歸類到以上任一,就是近年來盛行的強化學習﹝精確來說這不是一類任務,而是技術﹞。2016年打敗韓國棋王的 AlphaGo,還有進階版的 AlphaGo Zero,就是這一類型的 AI。強化學習方法強調個體 (agent) 與環境的互動和應對,訓練過程基於獎勵訊號而訓練 AI 針對環境變化採取合乎目標的行動。
也就是說這類 AI 非常彈性,面對環境的變化例如各種奇形怪狀的房間,或是棋手多變的棋路,都能做出合宜應對。ChatGPT 的訓練環節也包含了強化學習﹝讓他講人話的部分﹞。
之所以會有這麼多 AI 演算法,各種奇形怪狀的神經網路、強化學習等等,是因為近年來世界克服了早期電腦算力的缺陷,所以有些方法能大行其道。AI 發展的早期歷程,大家對於仿生智慧的想像也不一樣,所以衍伸出很多 AI 學派,主流是三個:符號主義、連接主義和行為主義。
符號主義構建的系統基於明確決策邏輯與豐富的知識/資訊,人類的行為可以投過符號、條件和邏輯表達,他們想像的 AI 也應該類似那樣;連接主義是神經網路的開山者,打下今天 AI 機器學習的重要基礎。他們看 AI 的行動更像是神經元之間的資訊傳遞,資訊傳遞有壓縮、有權重,以及有觸發順序,在一系列處理後吐出預測結果/行動。在算力充足的時代這個學派的思想更受好評。
行為主義則對應到前述的強化學習,行為來自對環境的感知和反應。最終在這個算力大爆發﹝感謝NVIDIA和上下游軟硬體產業﹞的時代,神經網路更和行為主義走在一起,產生交集了。
不過學派之間的起起落落大是大非,就不是本章節的重點。大概講個古,知道一些 AI 的演變就好,也許能幫助我們了解眼前這些技術的本質是什麼,或許也能進一步幫我們想像 AI 未來會是哪種形式進展。
實務上不同 AI 任務會採用的方法、演算法,大概就是以上介紹的,隨著環境的變化、資料變異跟需求複雜度,什麼方法會主宰何種領域任務,還有很多變數,選擇喜歡戰場,多多關注學術和技術討論,會很有幫助。
本篇就講到這裡,接下來我們要介紹一系列 AI 底層的專業領域。