付費限定

資料標記獨角獸 Scale AI：如何成為 AI 時代的重要玩家？

2024/08/12 更新2024/08/12 發佈閱讀 18 分鐘

Hi 我是 VK~

很常會看到 Scale AI 的消息，粗淺知道他們是在做資料標記（Data Labeling，或稱數據標記）。近來也有討論說資料會先用完，還是算力。剛好趁著這個機會深入了解 Scale AI 在做些什麼，他們如何解決資料標記的問題，以及在這領域中還有哪些玩家。

這期來聊聊 Scale AI 的早期故事，主要會聚焦討論：

資料標記為什麼在 AI 時代下很重要？
Sclae AI 想要解決什麼事？他們如何解決？
有多少玩家在資料標記領域？跟其他競爭者相比他優勢在哪？

喜歡這期的內容，歡迎分享給朋友一起訂閱《VK科技閱讀時間》，祝你今天一切順利~

在生成式 AI 時代下，成立不到十年的 Scale AI （以下簡稱 Scale）佔據一個迷人的位置。如果常關注科技新聞或訪談，會發現他的共同創辦人、執行長 Alexandr Wang 幾乎在近兩年內出現在各主流媒體、科技新創自媒體的節目，甚至前陣子 Ben Thompson 也找他訪談。

再加上，當有人問到誰是下個 Sam Altman 時，Y Combinator 共同創辦人 Paul Graham 覺得或許是 Alexandr Wang，對他的評價蠻不錯，主要也是 Scale 在早期加入過 YC。

如果憑直覺想一下，可以很快有個結論是：Scale 這家公司好像值得認識一下。這背後還有一個原因，當 OpenAI、Meta 和 Anthropic 等相繼推出參數更大的 AI 模型時，從 Scaling law 的角度來看，模型越大理想上模型性能會比小模型的好，這主要和訓練資料量的多寡、計算資源的效率有關。

大模型能在性能上有更好的表現，這和使用到的訓練資料量也更多有關。但你可能猜到了這會面臨到一個瓶頸：如果模型的參數量要再比現在更大，現有的資料量夠嗎？

當資料用完、大量資料不再能出奇蹟時，有更多的討論轉向資料的品質，也就是說當模型有良好的資料訓練時，理想上模型的準確性會越好。舉例來說，要建立專門診斷罕見疾病的模型來協助醫生識別特定疾病，但這會因為資料量稀少、資料品質不夠好，而在識別上變得很困難或不準確。

讓訓練模型的資料品質變得更好，是 Scale 正在做的事。他們的願景就是成為人工智慧和機器學習應用層背後的基礎設施。要有好的模型性能，取決於訓練的資料多寡與品質，這之中又可以再推進：如何用更有效率的方式訓練模型，像是用更少但更好的資料量。

為什麼成立 Scale：資料將成為新程式碼

目前成立 8 年的 Scale 主要是為 AI 和機器學習提供資料標註服務，之中 OpenAI、微軟和美國國防部等都是他們的客戶。他們最新的估值也來到約 138 億美元，新一輪融資由現有投資者 Accel 領投，也有亞馬遜、Meta、英特爾、AMD 和輝達等參與。

Scale 會廣泛被大眾關注，不僅是他們的題目、融資情況，還有共同創辦人 Alexandr Wang 的成長和創業故事，為整家公司增添了幾分讓人有想像空間（或討喜）的元素。

簡單介紹一下目前不到 30 歲的 Alexandr Wang，1997 年在新墨西哥州洛斯阿拉莫斯出生，這地方有個美國國家實驗室，過去也正好是曼哈頓計畫的原址。他身為物理學者的父母就在實驗室工作。Alexandr Wang 提到，「在這地方每個人不是科學家，就是家中至少有個成員是科學家在實驗室工作。」

這也讓 Alexandr Wang 在數學和物理的奧林匹克競賽上表現非常優異。幾乎在高中時期他就收到許多矽谷科技公司的 offer，最終他在 2014 年加入 Quora，擔任專注速度優化的工程師，同時也是在這階段他認識了產品設計師 Lucy Guo，並在後來成為 Scale 共同創辦人。

但為什麼是挑資料來做？為什麼是資料標記？

Alexandr Wang 在離開 Quora 後，去讀了麻省理工學院（MIT）開始接觸、學習很多與機器學習、深度學習、人工智慧等有關的概念。這時的他發現，「儘管 MIT 有數百名學生，他們都是才華橫溢、非常勤奮的人，但沒有人用 AI 建立任何東西。我們都在研究 AI。當我深入研究它時，我意識到資料是這些人構建有意義 AI 的最大瓶頸。為了給資料添加智慧，使其可用於機器學習，我們花費了大量的時間和資源。沒有標準化的工具或基礎設施，沒有 AWS、Stripe 或 Twilio 來解決這個問題。」

「我甚至親身發現了它，因為我想在我的冰箱裡安裝一個攝影機，這樣它就可以告訴我什麼時候補充我的雜貨以及我需要買什麼。即便如此，我也沒有任何資料來讓它工作。」這段觀察可以很好映證貫穿 Scale AI 的兩個概念：資料、基礎設施。

資料在 AI 時代將成為關鍵：Alexandr Wang 認為在 AI 時代下資料就是新的程式碼（data is the new code）。這原因在於模型是由算力、演算法和資料這三件事組成，前兩者有像是 NVIDIA 等科技公司在做，但處理資料方面卻非常少人做。這確實也給了他們一個很好進入市場的機會。
成為 AI 時代下的基礎設施：雖然他的同學都非常了解 AI，但卻沒有建立任何 AI 產品，Alexandr Wang 認為這背後的關鍵是缺少構建模型需要的良好資料。這也是市場上缺少的，如果要讓人類和機器學習能力之間的差距縮小，需要有準確標記的資料集來訓練人工智慧模型。這也是 Scale AI 想要做的事，成為其他 AI 應用層的基礎設施。

Scale API

2016 年，Alexandr Wang 和 Lucy Guo 分別從 MIT、卡內基梅隆大學輟學，決定一起創業。同時在這一年他們加入 YC，並在後來拿到了種子輪 12 萬美元。

不過一開始他們不叫 Scale AI，而是 Scale API，它們當時在做的是為人類任務創建一個 API。也就是說，有一些看起來重複、簡單的任務，人類會比演算法更適合進行，所以他們會透過人力外包的方式，來完成像是內容審核、資料擷取等任務，公司也不需要雇用內部團隊來做這些事。

Scale AI

這時他們注意到 AI 訓練資料的需求不斷成長，他們有機會做得更多，而且在 AI 和機器學習領域扮演重要角色。甚至成為像提供雲端服務的 AWS 或提供線上支付服務的 Stripe 等的基礎設施提供商。

到了 2018 年，他們正式改名為 Scale AI，這時 Lucy Guo 離開 Scale，展開她的新創業：Backend Capital。

Scale AI 的重心開始變成資料標記、註釋的平臺，幫助客戶把他們原始資料變成可以用在 AI 開發的高品質訓練資料。舉例來說，像通用汽車的 Cruise、Zoox、Nuro 等客戶會把所有原始資料（未標記的資料）提供給 Scale，讓 Scale 透過人力外包或是自家演算法的方式去標記道路、行人等。這些客戶拿到這些具有標記的資料後，他們可以再去訓練自駕車不去撞到行人等。

為什麼資料標記在 AI /ML 重要？

在介紹 Scale 旗下產品以前，我們先來了解一直重複提到的關鍵字「資料標記」究竟是什麼？為什麼 Scale 產品都建立在資料標記的基礎上？

舉個我們多少都會碰到的例子：驗證碼。

無論是給你看一張圖正確輸入裡面的數字和英文字母，或是給你九張圖片要你選擇圖片中有車的照片，這過程就是一種資料標記。

簡單來說，電腦不知道圖片裡面的東西是什麼，在輸入驗證碼的資料標記過程，就是一種透過人力的方式，告訴電腦說圖片中有什麼物件。

以行動支持創作者！付費即可解鎖

本篇內容共 7421 字、0 則留言，僅發佈於VK科技閱讀時間你目前無法檢視以下內容，可能因為尚未登入，或沒有該房間的查看權限。

#SCALE

VK科技閱讀時間VK科技閱讀時間新創奮鬥歷程

留言

留言分享你的想法！

VK科技閱讀時間

35.5K會員

111內容數

Hi，我是 VK~ 好奇科技發展、想看懂科技趨勢和新創的眉角。決定每週記錄下那些我感興趣、還看不懂的事。這裡會聊很多科技公司、新創，他們背後的人物與故事。

VK科技閱讀時間的其他內容

2025/04/21

使用 AI 不再是選擇而是要求！Shopify 如何從雪板電商蛻變為千億電商巨頭？

Hi 我是 VK~ 前兩週，Shopify 共同創辦人兼執行長 Tobi Lütke 公開一份內部備忘錄，在 X 上廣為流傳。這份題為「反射性 AI 使用現在是 Shopify 的基本期望」（Reflexive AI usage is now a baseline expectation at S

2025/04/21

使用 AI 不再是選擇而是要求！Shopify 如何從雪板電商蛻變為千億電商巨頭？

2025/04/07

雲端安全傳奇 Wiz：如何在短短不到五年時間從零到以 320 億美元被收購？

在雲端安全領域鮮少有公司能像 Wiz 一樣傳奇，在 2020 年成立，不到五年後以 320 億美元賣給 Google 母公司 Alphabet。這也是 Alphabet 史上最大收購案，更是全球安全產業最大交易之一。更驚人的是，Wiz 起步時的市場已有十多家競爭對手，但他們成功突圍 18 個月內

2025/04/07

雲端安全傳奇 Wiz：如何在短短不到五年時間從零到以 320 億美元被收購？

2025/03/31

HR 科技獨角獸的商業間諜案：從合作演變成競爭，派人竊取機密被抓包

Hi 我是 VK~ 這次要談的不是一般的科技公司發展故事，而是一場在矽谷科技圈上演的商業間諜案！你沒看錯，這是近期真實發生在人力資源（HR）科技公司之間的商業間諜活動。今天這場事件的主角是兩家 HR 科技獨角獸 Rippling 和 Deel，在 2025 年 3 月爆發的這起商業間諜案，在一

2025/03/31

HR 科技獨角獸的商業間諜案：從合作演變成競爭，派人竊取機密被抓包

看更多

你可能也想看

Celine 寫在這裡

香氛藝術家 sunkronizo perfume︱以香氛同步日常節奏的台灣獨立調香師品牌

嶄新的台灣獨立調香師品牌Sunkronizo ，這個名稱源自希臘語「同步」的意思。讓香氛不單純只是氣味調製，更是個人風格的展現與靈魂意志延伸的一種溝通語言。很適合接下來年底聖誕佳節送禮的試香組，以一星期中的日子來為全系列香氛產品命名，是品牌創立後首個推出全系列概念作品...

#香水#香水評論#試香

2025/11/25

Celine 寫在這裡

香氛藝術家 sunkronizo perfume︱以香氛同步日常節奏的台灣獨立調香師品牌

#香水#香水評論#試香

2025/11/25

awwrated的沙龍

【編輯現場】當世界都想看台灣故事：VOD 串流如何引爆下一個「台流」？

根據美國電影協會（MPA）主辦的「串流服務如何推動臺灣創意經濟」論壇內容，深入探討串流平臺對臺灣影視產業的影響、數據分析、政府政策建議、內容國際化策略，以及臺灣與「韓流」的差距。文章提出 awwrated 在串流生態系中的潛在角色，強調數據、策略與自信是臺灣影視產業發展的關鍵。

#awwrated#Netflix#NETFLIX影集

2025/11/21

awwrated的沙龍

【編輯現場】當世界都想看台灣故事：VOD 串流如何引爆下一個「台流」？

#awwrated#Netflix#NETFLIX影集

2025/11/21

月刊龍貓大王通信

進入串流大戰第二階段！台灣影視作品如何透過全球VOD平台對外發聲？這是來自美國電影協會的觀察

本文探討串流平臺（VOD）如何徹底改變好萊塢和臺灣影視產業的生態。從美國電影協會（MPA）的數據報告，揭示串流服務在臺灣的驚人普及率與在地內容的消費趨勢。文章分析國際作品如何透過在地化元素開拓新市場。同時，作者也擔憂政府過度監管可能扼殺臺灣影視創新自由，以越南為鑑，呼籲以開放態度擁抱串流時代的新機遇

#電影產業#全球在地化#串流平台

2025/11/24

月刊龍貓大王通信

進入串流大戰第二階段！台灣影視作品如何透過全球VOD平台對外發聲？這是來自美國電影協會的觀察

#電影產業#全球在地化#串流平台