The challenges or drawbacks of
AI是什麼(What is AI?)
人工智慧的英文是Artificial intelligence 其縮寫為AI,故以此為名。AI可以是一段具備高階功能的演算法(模型model),透過大量的運算,針對目標進行巨量資料之學習,當學習完成後的AI model,即可針對未知的問題進行解答。
上面這段說明,淺顯易懂,但若再深入說明,可以拆解成:
1. 演算法具體在運算什麼、2. 怎麼學習、3. 資料量有多龐大?
- 演算法的運算過程:此過程涉及多個數學函數的運算,如矩陣運算/函數求解以及其他數學運算。
- 怎麼學習:AI學習的方式主要分為監督式學習、非監督式學習和強化學習,以監督式學習為例,在AI model學習之前需要有龐大的資料量,並且每筆資料需要進行答案的標註,讓電腦知道該筆資料對應的答案是什麼,才能讓其學習。以AI視覺辨識為例,可能要準備一堆貓的照片,並且每張照片標註出貓的位置在哪,AI才能進行如何辨識貓的學習。
- 資料量有多龐大:這問題取決於問題本身的複雜度,例如一些公開的圖像資料庫COCO,其就具備了330,000張圖像供AI視覺模型進行學習訓練。
AI應用領域(Applications of AI)
AI應用領域甚廣,例如常見的物件辨識(人臉/車牌),數據分析(天氣預測),自然語言(對話式機器人)。透過上述幾個應用就可延伸出多個應用,例如自駕車,機器人,語音服務,預測系統。
AI實際落地的痛點(Bottlenecks in the practical implementation of AI)
有句話常見:AI領域中得資料者,得天下。
AI已經深入到各個產業,但又或許沒想像中那麼普及,根本的原因除了訓練AI用的資源不足外,雖並非全部,但主要一大痛點就是訓練AI前所要準備的巨量資料(Big data)不易準備。
舉例而言,若是要訓練AI進行“貓”辨識,假設沒有已經公開(意即有被他人事前處理過(資料整理 Data cleaning))的現成資料庫,而是要自己從零開始準備,那可能你需要準備大量貓的圖像(舉例:330,000張),每一張照片中或許出現1-N隻貓不等,而你還需要針對每張圖中的每一隻貓進行標註,才能準備好AI訓練用的資料.... 這個過程費時費力,且穩定性及再現性不足。
穩定性及再現性的問題例如:同一個人針對同張照片每次標註結果可能會有誤差 ; 不同的人針對同的照片的同個貓標註的結果不會完全一致。
而資料的品質,直接性的影響AI訓練的成果,但市售的產品,通常會標榜有AI也有視覺,但他不會,也無法賣你根據你的需求而產生資料庫本身,因為這部分需要耗費大量時間與人力,然而沒有資料庫,AI就無法有效應用....這就是AI的痛中之痛。
資料標註示意圖(圖片中針對標籤進行標注(藍色框))