AI Booster - Scale AI (1)

2023/08/18 更新2023/08/18 發佈閱讀 3 分鐘

Better Data. Better AI. Faster AI.

這系列文章是透過蒐集、分享我覺得有意思AI服務、相關文章、影片，期許自己能更了解這世界上正在發生什麼。

Scale AI 是一家2016年成立的科技公司，其願景是加速人工智慧和機器學習於各大產業的應用。在導入機器學習的過程當中，監督式學習 (Supervised Learning) 由於是使用標住過的資料來進行資料訓練，相比於非監督式學習(Unsupervised Learning)，監督式學習的正確性更高，通常應用範圍較深也較廣，在業界也比較被廣泛應用。在監督學習技法跟著機器學習和人工智慧的熱潮不對推陳出新，新的方法論和模型日新月異。然而，漸漸的人們也開始將更多的注意力集中在輸入資料本身的質量好壞，其中一個重點就是資料標註(Data Labeling)的品質。

資料標註的品質分為幾個面向。正確性通常是人們最在意的事情，因為沒有正確的標註無疑就是會造成所謂的”Garbage in Garbage Out”。直覺上我們會認為人工標註的正確性較高，然而人工標註常受限於人們的主觀意識、知識量(e.g. 辨別烏鴉vs椋鳥)、人體的極限(比如聽不到的頻率、跟不上的速度)等因素表現不如機器。此外人工標註的品質、標準的可持續性也是其中一項挑戰。

資料量是另一個會影響品質的因子，資料量的爆炸導致無法像過去全然仰賴傳統人工標註，資料量的增加也意謂著資料缺失(Missing)的比例增加，進一步造成可訓練的資料不足，影響訓練品質。這裡所提到的資料缺失並非傳統上所討論的因為蒐集資料的量能不足或缺乏蒐集資料的意識導致原始資料(Raw data)沒有被紀錄，而是對於後續資料判斷、解析的量能不足。

Scale AI提到，將資料標註的工作交給所謂的標註員(Annotators)當然是一種做法。然而隨之而來會面臨以下挑戰。首先，在市場上要找到合適的標註員，不僅要考慮人力成本、使用的語言、所在的地區、專業的素養達到並維持資料標註的品質，還要考慮人力的管理、流動等，這也是很多資料學習組織會將這些工作外包給第三方公司的理由。有了標註員以後，需要花費大量時間建立完善的訓練制度、監控SOP等流程。如果標註員的數量眾多，還需要了解其中標註能力和結果的變異性，某些標註員為什麼品質比較低落? 同一個標註員這幾天為什麼效率比之前差? Scale AI也提到了需要建立黃金資料集(Golden dataset)來當作管理的準則和極端範例(Edge case)的處理。

要達到加速人工智慧和機器學習於各大產業的應用的願景，Scale AI 希望能將資料標註這項工作透過其開發的工具，大批量且正確地完成，幫助客戶不僅能節省人力、時間成本，模型的正確性得到提升，最重要的是，資料標註的普及和加速會是提升機器學習市場滲透的關鍵因子。下一篇我們會來深挖Scale AI的幾個產品和產業應用。

Thank you!

留言

Informula 生產力工坊

8會員

23內容數

Informula 致力於提升工作生產力，分享生產力工具使用情境、簡單的程式、資料處理、數據分析、網路爬蟲應用等。尋求長期的自我成長要求或職場臨時急救包的朋友歡迎一起交流。

Informula 生產力工坊的其他內容

2024/07/30

AI Booster - ARK's Expected Value For Tesla

ARK於6/12發布其對Tesla未來價值的更新，ARK預計在2029年特斯拉每股價值將達到2600美元。

2024/07/30

AI Booster - ARK's Expected Value For Tesla

ARK於6/12發布其對Tesla未來價值的更新，ARK預計在2029年特斯拉每股價值將達到2600美元。

2023/10/12

AI Booster -Scale AI (4)

The sophisticated platform for text annotation. Human-powered audio transcription and categorization to power home agents and other voice-controlled

2023/10/12

AI Booster -Scale AI (4)

The sophisticated platform for text annotation. Human-powered audio transcription and categorization to power home agents and other voice-controlled

2023/10/10

AI Booster -Scale AI (3)

The flexible solution to develop and scale your own custom maps. Build machine learning models from zero to production in hours, without ML expertise

2023/10/10

AI Booster -Scale AI (3)

The flexible solution to develop and scale your own custom maps. Build machine learning models from zero to production in hours, without ML expertise

看更多

你可能也想看

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》，由臺灣劇團「晃晃跨幅町」製作，本文將以從舞台符號、聲音與表演調度切入，討論海妲・蓋柏樂在父權社會結構下的困境，並結合榮格心理學與馮．法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析，理解女人何以走向精神性的操控、毀滅與死亡。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

《轉轉生》（Re:INCARNATION）為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，結合拉各斯街頭節奏、Afrobeat／Afrobeats、以及約魯巴宇宙觀的非線性時間，建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發，解析其去殖民的身體政治。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

VK科技閱讀時間

資料標記獨角獸 Scale AI：如何成為 AI 時代的重要玩家？

Hi 我是 VK~ 很常會看到 Scale AI 的消息，粗淺知道他們是在做資料標記（Data Labeling，或稱數據標記）。近來也有討論說資料會先用完，還是算力。剛好趁著這個機會深入了解 Scale AI 在做些什麼，他們如何解決資料標記的問題，以及在這領域中還有哪些玩家。這期來聊聊 S

#SCALE

2024/08/12

VK科技閱讀時間

資料標記獨角獸 Scale AI：如何成為 AI 時代的重要玩家？

#SCALE

2024/08/12

廣告雜誌

從資料清洗到 RAG，大型語言模型的必需品，做出專屬企業的 AI 知識庫！

在當今快速變化的數位時代，企業面臨著前所未有的數據處理需求。為了應對這些挑戰，企業紛紛建立自己的大型語言模型（LLM），利用大量數據進行訓練，讓模型能夠理解並生成自然語言，從而實現人機協作，優化業務流程並提升客戶體驗。

#廣告雜誌#專欄#cacaFly

2024/07/31

廣告雜誌

從資料清洗到 RAG，大型語言模型的必需品，做出專屬企業的 AI 知識庫！

#廣告雜誌#專欄#cacaFly

2024/07/31

熙哥生意之道

人工智能AI和機器學習ML：業務升級的新動能

在當今快速發展的技術時代，人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程，AI和ML的應用範圍日益廣泛，為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢？

#AI#ML#人工智能

2024/07/26

熙哥生意之道

人工智能AI和機器學習ML：業務升級的新動能

#AI#ML#人工智能

2024/07/26

虹靈御所 × 元壹宇宙

AI助手數據收集和訓練過程簡介

本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據，數據的清洗和結構化處理，知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議，歡迎隨時告訴我們，讓我們共同探索，攜手進步。

2024/07/11

2024/07/11

在機器學習領域中，監督學習、無監督學習和強化學習是三種核心方法，它們在解決不同類型的問題時發揮著重要作用。

2024/05/12

Will 進步本

拐點 #003: GPT 的名稱怎麼來的

在機器學習領域中，監督學習、無監督學習和強化學習是三種核心方法，它們在解決不同類型的問題時發揮著重要作用。

2024/05/12

M-Insight：AI科技創新

高階管理者應該了解的六個 AI 問題

近年來，生成式AI對市場帶來了巨大變革，然而，企業的AI專案卻面臨許多部署和失敗的問題。從MIT Sloan Management Review的研究中，我們發現數據科學家在尋找防止AI模型失敗的模式上面存在許多問題。本文提供了三個觀點，協助缺乏技術的高階主管針對辨識有效的AI模型和數據集提出方法。

#生成式AI#深度學習#科技

2024/04/30