AI Booster - Scale AI (1)

2023/08/18 更新2023/08/18 發佈閱讀 3 分鐘

Better Data. Better AI. Faster AI.

這系列文章是透過蒐集、分享我覺得有意思AI服務、相關文章、影片，期許自己能更了解這世界上正在發生什麼。

Scale AI 是一家2016年成立的科技公司，其願景是加速人工智慧和機器學習於各大產業的應用。在導入機器學習的過程當中，監督式學習 (Supervised Learning) 由於是使用標住過的資料來進行資料訓練，相比於非監督式學習(Unsupervised Learning)，監督式學習的正確性更高，通常應用範圍較深也較廣，在業界也比較被廣泛應用。在監督學習技法跟著機器學習和人工智慧的熱潮不對推陳出新，新的方法論和模型日新月異。然而，漸漸的人們也開始將更多的注意力集中在輸入資料本身的質量好壞，其中一個重點就是資料標註(Data Labeling)的品質。

資料標註的品質分為幾個面向。正確性通常是人們最在意的事情，因為沒有正確的標註無疑就是會造成所謂的”Garbage in Garbage Out”。直覺上我們會認為人工標註的正確性較高，然而人工標註常受限於人們的主觀意識、知識量(e.g. 辨別烏鴉vs椋鳥)、人體的極限(比如聽不到的頻率、跟不上的速度)等因素表現不如機器。此外人工標註的品質、標準的可持續性也是其中一項挑戰。

資料量是另一個會影響品質的因子，資料量的爆炸導致無法像過去全然仰賴傳統人工標註，資料量的增加也意謂著資料缺失(Missing)的比例增加，進一步造成可訓練的資料不足，影響訓練品質。這裡所提到的資料缺失並非傳統上所討論的因為蒐集資料的量能不足或缺乏蒐集資料的意識導致原始資料(Raw data)沒有被紀錄，而是對於後續資料判斷、解析的量能不足。

Scale AI提到，將資料標註的工作交給所謂的標註員(Annotators)當然是一種做法。然而隨之而來會面臨以下挑戰。首先，在市場上要找到合適的標註員，不僅要考慮人力成本、使用的語言、所在的地區、專業的素養達到並維持資料標註的品質，還要考慮人力的管理、流動等，這也是很多資料學習組織會將這些工作外包給第三方公司的理由。有了標註員以後，需要花費大量時間建立完善的訓練制度、監控SOP等流程。如果標註員的數量眾多，還需要了解其中標註能力和結果的變異性，某些標註員為什麼品質比較低落? 同一個標註員這幾天為什麼效率比之前差? Scale AI也提到了需要建立黃金資料集(Golden dataset)來當作管理的準則和極端範例(Edge case)的處理。

要達到加速人工智慧和機器學習於各大產業的應用的願景，Scale AI 希望能將資料標註這項工作透過其開發的工具，大批量且正確地完成，幫助客戶不僅能節省人力、時間成本，模型的正確性得到提升，最重要的是，資料標註的普及和加速會是提升機器學習市場滲透的關鍵因子。下一篇我們會來深挖Scale AI的幾個產品和產業應用。

Thank you!

留言

留言分享你的想法！

Informula 生產力工坊

8會員

23內容數

Informula 致力於提升工作生產力，分享生產力工具使用情境、簡單的程式、資料處理、數據分析、網路爬蟲應用等。尋求長期的自我成長要求或職場臨時急救包的朋友歡迎一起交流。

Informula 生產力工坊的其他內容

2024/07/30

AI Booster - ARK's Expected Value For Tesla

ARK於6/12發布其對Tesla未來價值的更新，ARK預計在2029年特斯拉每股價值將達到2600美元。

2024/07/30

AI Booster - ARK's Expected Value For Tesla

ARK於6/12發布其對Tesla未來價值的更新，ARK預計在2029年特斯拉每股價值將達到2600美元。

2023/10/12

AI Booster -Scale AI (4)

The sophisticated platform for text annotation. Human-powered audio transcription and categorization to power home agents and other voice-controlled

2023/10/12

AI Booster -Scale AI (4)

The sophisticated platform for text annotation. Human-powered audio transcription and categorization to power home agents and other voice-controlled

2023/10/10

AI Booster -Scale AI (3)

The flexible solution to develop and scale your own custom maps. Build machine learning models from zero to production in hours, without ML expertise

2023/10/10

AI Booster -Scale AI (3)

The flexible solution to develop and scale your own custom maps. Build machine learning models from zero to production in hours, without ML expertise

看更多

你可能也想看

Amanda的小世界

蝦皮雙12購物節與蝦皮分潤計畫：購物分享，創造額外的被動收入

作者分享自己曾在蝦皮購買的好物，與介紹蝦皮雙12購物節的優惠活動，以及自己打算入手的商品，也詳細說明如何透過「蝦皮分潤計畫」創造額外的被動收入，鼓勵讀者一同參與。

#蝦皮#蝦皮分潤計畫#蝦皮購物

2025/12/04

Amanda的小世界

蝦皮雙12購物節與蝦皮分潤計畫：購物分享，創造額外的被動收入

#蝦皮#蝦皮分潤計畫#蝦皮購物

2025/12/04

Ruby的沙龍

🎁 聖誕交換禮物攻略｜Ruby的蝦皮購物開箱＆「蝦皮雙12購物清單」！ 🎅

交換禮物總是讓人又愛又怕？Ruby整理蝦皮500元內必買清單，從養生茶包、心靈牌卡到可愛環保杯、公益零錢包，送禮自用兩相宜。同時分享「蝦皮分潤計畫」教學，購買好物的同時還能賺零用錢，雙12購物攻略一次看！

#蝦皮分潤計畫#蝦皮1212#蝦皮免運

2025/12/06

Ruby的沙龍

🎁 聖誕交換禮物攻略｜Ruby的蝦皮購物開箱＆「蝦皮雙12購物清單」！ 🎅

#蝦皮分潤計畫#蝦皮1212#蝦皮免運

2025/12/06

亭安 Ann Lin 的心靈食堂

【商業合作】蝦皮雙12購物分享：冬季養生必備艾灸罐與生活好物推薦

冬天到了，又到了我最愛窩在家網購的季節！從原本對網拍沒興趣，到現在成為蝦皮的忠實用戶，這個轉變連我自己都覺得有趣。這次趁著蝦皮雙12活動，想跟大家分享我最近入手的冬季養生好物——艾灸罐，還有其他實用的生活小物。文末也會介紹蝦皮分潤計畫，讓常網購的你，也能把購物經驗變成額外收入！

#蝦皮分潤計畫#蝦皮1212#蝦皮免運

2025/12/05

亭安 Ann Lin 的心靈食堂

【商業合作】蝦皮雙12購物分享：冬季養生必備艾灸罐與生活好物推薦

#蝦皮分潤計畫#蝦皮1212#蝦皮免運

2025/12/05

VK科技閱讀時間

資料標記獨角獸 Scale AI：如何成為 AI 時代的重要玩家？

Hi 我是 VK~ 很常會看到 Scale AI 的消息，粗淺知道他們是在做資料標記（Data Labeling，或稱數據標記）。近來也有討論說資料會先用完，還是算力。剛好趁著這個機會深入了解 Scale AI 在做些什麼，他們如何解決資料標記的問題，以及在這領域中還有哪些玩家。這期來聊聊 S

#SCALE

2024/08/12

VK科技閱讀時間

資料標記獨角獸 Scale AI：如何成為 AI 時代的重要玩家？

#SCALE

2024/08/12

廣告雜誌

從資料清洗到 RAG，大型語言模型的必需品，做出專屬企業的 AI 知識庫！

在當今快速變化的數位時代，企業面臨著前所未有的數據處理需求。為了應對這些挑戰，企業紛紛建立自己的大型語言模型（LLM），利用大量數據進行訓練，讓模型能夠理解並生成自然語言，從而實現人機協作，優化業務流程並提升客戶體驗。

#廣告雜誌#專欄#cacaFly

2024/07/31

廣告雜誌

從資料清洗到 RAG，大型語言模型的必需品，做出專屬企業的 AI 知識庫！

#廣告雜誌#專欄#cacaFly

2024/07/31

熙哥生意之道

人工智能AI和機器學習ML：業務升級的新動能

在當今快速發展的技術時代，人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程，AI和ML的應用範圍日益廣泛，為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢？

#AI#ML#人工智能

2024/07/26

熙哥生意之道

人工智能AI和機器學習ML：業務升級的新動能

#AI#ML#人工智能

2024/07/26

默默超的人機協作城

AI助手數據收集和訓練過程簡介

本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據，數據的清洗和結構化處理，知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議，歡迎隨時告訴我們，讓我們共同探索，攜手進步。

2024/07/11

2024/07/11

在機器學習領域中，監督學習、無監督學習和強化學習是三種核心方法，它們在解決不同類型的問題時發揮著重要作用。

2024/05/12

Will 進步本

拐點 #003: GPT 的名稱怎麼來的

在機器學習領域中，監督學習、無監督學習和強化學習是三種核心方法，它們在解決不同類型的問題時發揮著重要作用。

2024/05/12

M-Insight：AI科技創新

高階管理者應該了解的六個 AI 問題

近年來，生成式AI對市場帶來了巨大變革，然而，企業的AI專案卻面臨許多部署和失敗的問題。從MIT Sloan Management Review的研究中，我們發現數據科學家在尋找防止AI模型失敗的模式上面存在許多問題。本文提供了三個觀點，協助缺乏技術的高階主管針對辨識有效的AI模型和數據集提出方法。

#生成式AI#深度學習#科技

2024/04/30