Better Data. Better AI. Faster AI.
這系列文章是透過蒐集、分享我覺得有意思AI服務、相關文章、影片,期許自己能更了解這世界上正在發生什麼。
Scale AI 是一家2016年成立的科技公司,其願景是加速人工智慧和機器學習於各大產業的應用。在導入機器學習的過程當中,監督式學習 (Supervised Learning) 由於是使用標住過的資料來進行資料訓練,相比於非監督式學習(Unsupervised Learning),監督式學習的正確性更高,通常應用範圍較深也較廣,在業界也比較被廣泛應用。在監督學習技法跟著機器學習和人工智慧的熱潮不對推陳出新,新的方法論和模型日新月異。然而,漸漸的人們也開始將更多的注意力集中在輸入資料本身的質量好壞,其中一個重點就是資料標註(Data Labeling)的品質。
資料標註的品質分為幾個面向。正確性通常是人們最在意的事情,因為沒有正確的標註無疑就是會造成所謂的”Garbage in Garbage Out”。直覺上我們會認為人工標註的正確性較高,然而人工標註常受限於人們的主觀意識、知識量(e.g. 辨別烏鴉vs椋鳥)、人體的極限(比如聽不到的頻率、跟不上的速度)等因素表現不如機器。此外人工標註的品質、標準的可持續性也是其中一項挑戰。
資料量是另一個會影響品質的因子,資料量的爆炸導致無法像過去全然仰賴傳統人工標註,資料量的增加也意謂著資料缺失(Missing)的比例增加,進一步造成可訓練的資料不足,影響訓練品質。這裡所提到的資料缺失並非傳統上所討論的因為蒐集資料的量能不足或缺乏蒐集資料的意識導致原始資料(Raw data)沒有被紀錄,而是對於後續資料判斷、解析的量能不足。
Scale AI提到,將資料標註的工作交給所謂的標註員(Annotators)當然是一種做法。然而隨之而來會面臨以下挑戰。首先,在市場上要找到合適的標註員,不僅要考慮人力成本、使用的語言、所在的地區、專業的素養達到並維持資料標註的品質,還要考慮人力的管理、流動等,這也是很多資料學習組織會將這些工作外包給第三方公司的理由。有了標註員以後,需要花費大量時間建立完善的訓練制度、監控SOP等流程。如果標註員的數量眾多,還需要了解其中標註能力和結果的變異性,某些標註員為什麼品質比較低落? 同一個標註員這幾天為什麼效率比之前差? Scale AI也提到了需要建立黃金資料集(Golden dataset)來當作管理的準則和極端範例(Edge case)的處理。
要達到加速人工智慧和機器學習於各大產業的應用的願景,Scale AI 希望能將資料標註這項工作透過其開發的工具,大批量且正確地完成,幫助客戶不僅能節省人力、時間成本,模型的正確性得到提升,最重要的是,資料標註的普及和加速會是提升機器學習市場滲透的關鍵因子。下一篇我們會來深挖Scale AI的幾個產品和產業應用。
Thank you!