如果要用一句話來說的話,那應該是『技術有限,價值無限』
相比於最近臺面上火熱的元宇宙、NFT或區塊鏈,AI人工智慧彷彿已經是上一代流行的名詞,自GOOGLE於2014年推出AlphaGo演算法力壓圍棋界的世界冠軍後,人工智慧頓時流行開來,從學界科研題目都要冠上人工智慧或AI才能夠爭取經費,到政府開始力推『政府資料開放平臺』,再到大中小企業爭相引入人工智慧技術,連帶帶動相關運算資源產業鏈像是GPU價格的飆漲,甚至在人力資源網站上也能夠看見AI相關人才職缺與薪水快速增長。
但隨著AI技術進步到接近天花板的準確度後,像是影像處理和語音處理,大家想問的可能是還在後頭的NLP自然語言處理技術還有多少價值空間可以發揮?
我想這個問題可以從兩個角度來看,分別是『技術難度』和『技術泛用性』
NLP技術難度
資料格式一般可以區分為結構化資料和非結構化資料,結構化代表的是資料有精確定義好的格式,像是常見的excel表格資料、圖片的rgb格式資料,而非結構化代表資料會以比較靈活方式呈現且沒有既定格式,典型的代表就是文本。
我們都知道表格化資料通常比較好整理,像是excel數值統計操作、資料視覺化或知識統整,對於AI數學模型來說也是如此,模型擅長的是從大量資料中找出知識規律出來,已經整理成特定格式的資料模型自然能夠快速找出。
相對的非結構化文本資料就沒這麼容易,因為AI模型只能吃進格式化資料,所以在處理非結構化資料時會需要額外一道工程來將非結構化轉成結構化形式,轉化過程也會丟失語意訊息,若文本長度過長模型也吃不下去,且人類現存語言大約有七千多種,每一種語言對模型來說都是新世界。
因為文本的語意複雜和表達不容易,模型訓練通常需要大量資料才能獲得較好的效果,所以近年NLP模型發展轉變成網路巨頭們比拼機器算力和訓練資料量戰場。
但最終模型效果還是可以從目前網站上的聊天機器人來得到驗證,實際使用後就能感受到離模擬真人聊天還有一大段距離要走。
技術泛用性
人類語言發展已經好幾千年歷史,不管是一般聊天溝通或是專業知識傳遞都仰賴自然語言來當作媒介,說NLP技術是各行各業都需要技術也不為過。
在企業數位轉型這個年代,將記錄在紙本的知識重新搬到網路上,會有大量的文本資料可以被分析和利用,過去因為技術不成熟或不了解AI相關應用而只能依靠人類自身經驗來做決策,經過資料數位化和AI分析後可以更客觀角度來看待,典型產業代表有銀行、法律。
銀行是紙本文件數一數二多的地方,數位化後能做各種AI應用,像是自動預測個人信用戶評分; 自動判斷金錢交易是否異常等應用。
而大量法律文件歸類則是經常讓律師頭痛,法律文件需經過律師們閱讀後才能有效被分類到正確類別,透過文本電子化和AI分類,就能大幅節省人力成本。
每間公司或多或少都有文本資料庫,不管是紙本或電子形式,都可以透過正確的AI應用來增強生產力,因為自然語言幾乎無所不在,是人類的傳遞訊息的方法,同時也是NLP技術價值最高的地方。
結語
雖然NLP技術尚未成熟,還有許多困難要突破,但作為特定領域輔助使用已有許多實際落地場景案例,在其有限的技術限制上,發揮其無限價值的能力