AI Booster - Scale AI (1)

2023/08/18閱讀時間約 3 分鐘

Better Data. Better AI. Faster AI.

這系列文章是透過蒐集、分享我覺得有意思AI服務、相關文章、影片，期許自己能更了解這世界上正在發生什麼。

Scale AI 是一家2016年成立的科技公司，其願景是加速人工智慧和機器學習於各大產業的應用。在導入機器學習的過程當中，監督式學習 (Supervised Learning) 由於是使用標住過的資料來進行資料訓練，相比於非監督式學習(Unsupervised Learning)，監督式學習的正確性更高，通常應用範圍較深也較廣，在業界也比較被廣泛應用。在監督學習技法跟著機器學習和人工智慧的熱潮不對推陳出新，新的方法論和模型日新月異。然而，漸漸的人們也開始將更多的注意力集中在輸入資料本身的質量好壞，其中一個重點就是資料標註(Data Labeling)的品質。

資料標註的品質分為幾個面向。正確性通常是人們最在意的事情，因為沒有正確的標註無疑就是會造成所謂的”Garbage in Garbage Out”。直覺上我們會認為人工標註的正確性較高，然而人工標註常受限於人們的主觀意識、知識量(e.g. 辨別烏鴉vs椋鳥)、人體的極限(比如聽不到的頻率、跟不上的速度)等因素表現不如機器。此外人工標註的品質、標準的可持續性也是其中一項挑戰。

資料量是另一個會影響品質的因子，資料量的爆炸導致無法像過去全然仰賴傳統人工標註，資料量的增加也意謂著資料缺失(Missing)的比例增加，進一步造成可訓練的資料不足，影響訓練品質。這裡所提到的資料缺失並非傳統上所討論的因為蒐集資料的量能不足或缺乏蒐集資料的意識導致原始資料(Raw data)沒有被紀錄，而是對於後續資料判斷、解析的量能不足。

Scale AI提到，將資料標註的工作交給所謂的標註員(Annotators)當然是一種做法。然而隨之而來會面臨以下挑戰。首先，在市場上要找到合適的標註員，不僅要考慮人力成本、使用的語言、所在的地區、專業的素養達到並維持資料標註的品質，還要考慮人力的管理、流動等，這也是很多資料學習組織會將這些工作外包給第三方公司的理由。有了標註員以後，需要花費大量時間建立完善的訓練制度、監控SOP等流程。如果標註員的數量眾多，還需要了解其中標註能力和結果的變異性，某些標註員為什麼品質比較低落? 同一個標註員這幾天為什麼效率比之前差? Scale AI也提到了需要建立黃金資料集(Golden dataset)來當作管理的準則和極端範例(Edge case)的處理。

要達到加速人工智慧和機器學習於各大產業的應用的願景，Scale AI 希望能將資料標註這項工作透過其開發的工具，大批量且正確地完成，幫助客戶不僅能節省人力、時間成本，模型的正確性得到提升，最重要的是，資料標註的普及和加速會是提升機器學習市場滲透的關鍵因子。下一篇我們會來深挖Scale AI的幾個產品和產業應用。

Thank you!

7會員

23內容數

Informula 致力於提升工作生產力，分享生產力工具使用情境、簡單的程式、資料處理、數據分析、網路爬蟲應用等。尋求長期的自我成長要求或職場臨時急救包的朋友歡迎一起交流。

留言0

查看全部

發表第一個留言支持創作者！

你可能也想看

Google News 追蹤

方格子 vocus 官方沙龍

2024/10/21

「天天秋嗨嗨」：vocus 秋季徵文，五大主題 & 獎品登場！

這個秋，Chill 嗨嗨！穿搭美美去賞楓，裝備款款去露營⋯⋯你的秋天怎麼過？秋日 To Do List 等你分享！秋季全站徵文，我們準備了五個創作主題，參賽還有機會獲得「火烤兩用鍋」，一起來看看如何參加吧～

#天天秋嗨嗨 #秋季旅遊 #秋季穿搭

MimiVsJames的美股投資分享

2024/11/03

美國大選『終局之戰』（Endgame）即將展開，美股將迎來新世紀？（上篇：模型推導寶座花落誰家？）

美國總統大選只剩下三天，我們觀察一整週民調與金融市場的變化（包含賭局），到本週五下午3:00前為止，誰是美國總統幾乎大概可以猜到60-70%的機率，本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變

#美股 #美國大選 #投資理財

矮袋鼠律師的沙龍

2024/11/03

如果這個世界有神，那祂一定姓李名相赫｜矮袋鼠律師

Faker昨天真的太扯了，中國主播王多多點評的話更是精妙，分享給各位王多多的點評「Faker是我們的處境，他是LPL永遠繞不開的一個人和話題，所以我們特別渴望在決賽跟他相遇，去直面我們的處境。我們曾經稱他為最高的山，最長的河，以為山海就是盡頭，可是Faker用他28歲的年齡...

#Faker #電競 #運動

EMO先生的沙龍

2023/06/28

AI浪潮的相關產業(1)-IC設計公司

受惠於ChatGPT帶來的AI浪潮，科技巨頭亟欲開發自有的AI模型及資料中心，對於高階晶片的需求快速上升本系列會解析相關的半導體產業首先介紹晶片生產的產業鍊，以下會依三部份進行介紹：上游【IC設計】、中游【IC製造】、下游【IC封測】

#晶片 #IC設計 #NVIDIA

cazzy jason的沙龍

2023/04/09

AI速評第1期:ClipDrop、ReaderGPT、ChatGPT for Google、Draft

你好，我是cazzyjason，最近的AI如井噴式爆發，每個人都被AI轟炸得焦頭爛額的，手機一打開全都是哪家又出了新的AI、這個AI的又推出新功能，原本我還沾沾自喜的覺得我應該是對於Stable diffusion的新資訊跟得比較緊的，但發現因為轉頭研究ChatGPT的這兩三天，我對Stable d

#ChatGPT #APP #AI

德意志黑眼圈

2023/04/04

[AI實戰] 我如何用ChatGPT+leonardo.ai在Amazon上架我的第一本英文繪本童書(1)-前置作業

感謝AI和線上免費軟體的幫忙，讓我完成了第一本英文繪本童書並且在Amazon上架。這篇文章要手把手地把我的經驗分享給大家，讓大家一起加入創作者的行列。這篇介紹了我使用的線上AI軟體以及需要使用到的網站，準備工作做好就可以開始創作囉!

#ChatGPT #leonardo #Canva

因人廢言

2023/02/21

AI繪圖-APP篇(4)-推薦五款萬用繪圖APP(寫實+動漫+CG一次解決)-(第1集/共2集)

這次介紹五款所有畫風都通吃的萬用AI繪圖APP，寫實風，CG風，動漫風都可以一次解決。避免文長影響閱讀體驗，拆成兩篇發行，第一集介紹前三款，第二集介紹後二款。

#APP #繪圖 #AI繪圖

瓶裝雪的沙龍

2023/01/31

AI 繪圖研究日誌 #1 | 探討使用單字、句子、括弧對生成圖片的影響及優化

這篇文章將會探討「使用單字和句子對生成圖片的影響」。並且介紹官方建議的敘事方式。

#AI繪圖 #AI #AI繪圖研究日誌

朱騏的沙龍

2023/01/21

【AI ChatGPT 系列 – 1】 ChatGPT 是什麼？3 個知識點帶你快速入門 ChatGPT

我使用 ChatGPT 已經超過 1 個月了，極度關注 ChatGPT 的相關新聞。我發現網路與報章雜誌上都開始報導 ChatGPT 這款工具，但多數人還是不瞭解這款工具可以如何幫助我們。如果不了解 ChatGPT 的細節，我們就只能「聽說」這款工具很厲害，但卻無法為己所用。這篇文章分享 3 個快速

#ChatGPT