2024-08-12|閱讀時間 ‧ 約 0 分鐘

資料標記獨角獸 Scale AI:如何成為 AI 時代的重要玩家?

Hi 我是 VK~

很常會看到 Scale AI 的消息,粗淺知道他們是在做資料標記(Data Labeling,或稱數據標記)。近來也有討論說資料會先用完,還是算力。剛好趁著這個機會深入了解 Scale AI 在做些什麼,他們如何解決資料標記的問題,以及在這領域中還有哪些玩家。

這期來聊聊 Scale AI 的早期故事,主要會聚焦討論:

  • 資料標記為什麼在 AI 時代下很重要?
  • Sclae AI 想要解決什麼事?他們如何解決?
  • 有多少玩家在資料標記領域?跟其他競爭者相比他優勢在哪?

喜歡這期的內容,歡迎分享給朋友一起訂閱《VK科技閱讀時間》,祝你今天一切順利~


在生成式 AI 時代下,成立不到十年的 Scale AI (以下簡稱 Scale)佔據一個迷人的位置。如果常關注科技新聞或訪談,會發現他的共同創辦人、執行長 Alexandr Wang 幾乎在近兩年內出現在各主流媒體、科技新創自媒體的節目,甚至前陣子 Ben Thompson 也找他訪談。

再加上,當有人問到誰是下個 Sam Altman 時,Y Combinator 共同創辦人 Paul Graham 覺得或許是 Alexandr Wang,對他的評價蠻不錯,主要也是 Scale 在早期加入過 YC。

如果憑直覺想一下,可以很快有個結論是:Scale 這家公司好像值得認識一下。這背後還有一個原因,當 OpenAI、Meta 和 Anthropic 等相繼推出參數更大的 AI 模型時,從 Scaling law 的角度來看,模型越大理想上模型性能會比小模型的好,這主要和訓練資料量的多寡、計算資源的效率有關。

大模型能在性能上有更好的表現,這和使用到的訓練資料量也更多有關。但你可能猜到了這會面臨到一個瓶頸:如果模型的參數量要再比現在更大,現有的資料量夠嗎?

當資料用完、大量資料不再能出奇蹟時,有更多的討論轉向資料的品質,也就是說當模型有良好的資料訓練時,理想上模型的準確性會越好。舉例來說,要建立專門診斷罕見疾病的模型來協助醫生識別特定疾病,但這會因為資料量稀少、資料品質不夠好,而在識別上變得很困難或不準確。

讓訓練模型的資料品質變得更好,是 Scale 正在做的事。他們的願景就是成為人工智慧和機器學習應用層背後的基礎設施。要有好的模型性能,取決於訓練的資料多寡與品質,這之中又可以再推進:如何用更有效率的方式訓練模型,像是用更少但更好的資料量。

為什麼成立 Scale:資料將成為新程式碼

目前成立 8 年的 Scale 主要是為 AI 和機器學習提供資料標註服務,之中 OpenAI、微軟和美國國防部等都是他們的客戶。他們最新的估值也來到約 138 億美元,新一輪融資由現有投資者 Accel 領投,也有亞馬遜、Meta、英特爾、AMD 和輝達等參與。

Scale 會廣泛被大眾關注,不僅是他們的題目、融資情況,還有共同創辦人 Alexandr Wang 的成長和創業故事,為整家公司增添了幾分讓人有想像空間(或討喜)的元素。

簡單介紹一下目前不到 30 歲的 Alexandr Wang,1997 年在新墨西哥州洛斯阿拉莫斯出生,這地方有個美國國家實驗室,過去也正好是曼哈頓計畫的原址。他身為物理學者的父母就在實驗室工作。Alexandr Wang 提到,「在這地方每個人不是科學家,就是家中至少有個成員是科學家在實驗室工作。」

這也讓 Alexandr Wang 在數學和物理的奧林匹克競賽上表現非常優異。幾乎在高中時期他就收到許多矽谷科技公司的 offer,最終他在 2014 年加入 Quora,擔任專注速度優化的工程師,同時也是在這階段他認識了產品設計師 Lucy Guo,並在後來成為 Scale 共同創辦人。

但為什麼是挑資料來做?為什麼是資料標記?

Alexandr Wang 在離開 Quora 後,去讀了麻省理工學院(MIT)開始接觸、學習很多與機器學習、深度學習、人工智慧等有關的概念。這時的他發現,「儘管 MIT 有數百名學生,他們都是才華橫溢、非常勤奮的人,但沒有人用 AI 建立任何東西。我們都在研究 AI。當我深入研究它時,我意識到資料是這些人構建有意義 AI 的最大瓶頸。為了給資料添加智慧,使其可用於機器學習,我們花費了大量的時間和資源。沒有標準化的工具或基礎設施,沒有 AWS、Stripe 或 Twilio 來解決這個問題。」

「我甚至親身發現了它,因為我想在我的冰箱裡安裝一個攝影機,這樣它就可以告訴我什麼時候補充我的雜貨以及我需要買什麼。即便如此,我也沒有任何資料來讓它工作。」這段觀察可以很好映證貫穿 Scale AI 的兩個概念:資料、基礎設施。

  1. 資料在 AI 時代將成為關鍵:Alexandr Wang 認為在 AI 時代下資料就是新的程式碼(data is the new code)。這原因在於模型是由算力、演算法和資料這三件事組成,前兩者有像是 NVIDIA 等科技公司在做,但處理資料方面卻非常少人做。這確實也給了他們一個很好進入市場的機會。
  2. 成為 AI 時代下的基礎設施:雖然他的同學都非常了解 AI,但卻沒有建立任何 AI 產品,Alexandr Wang 認為這背後的關鍵是缺少構建模型需要的良好資料。這也是市場上缺少的,如果要讓人類和機器學習能力之間的差距縮小,需要有準確標記的資料集來訓練人工智慧模型。這也是 Scale AI 想要做的事,成為其他 AI 應用層的基礎設施。

Scale API

2016 年,Alexandr Wang 和 Lucy Guo 分別從 MIT、卡內基梅隆大學輟學,決定一起創業。同時在這一年他們加入 YC,並在後來拿到了種子輪 12 萬美元。

不過一開始他們不叫 Scale AI,而是 Scale API,它們當時在做的是為人類任務創建一個 API。也就是說,有一些看起來重複、簡單的任務,人類會比演算法更適合進行,所以他們會透過人力外包的方式,來完成像是內容審核、資料擷取等任務,公司也不需要雇用內部團隊來做這些事。

Scale AI

這時他們注意到 AI 訓練資料的需求不斷成長,他們有機會做得更多,而且在 AI 和機器學習領域扮演重要角色。甚至成為像提供雲端服務的 AWS 或提供線上支付服務的 Stripe 等的基礎設施提供商。

到了 2018 年,他們正式改名為 Scale AI,這時 Lucy Guo 離開 Scale,展開她的新創業:Backend Capital。

Scale AI 的重心開始變成資料標記、註釋的平臺,幫助客戶把他們原始資料變成可以用在 AI 開發的高品質訓練資料。舉例來說,像通用汽車的 Cruise、Zoox、Nuro 等客戶會把所有原始資料(未標記的資料)提供給 Scale,讓 Scale 透過人力外包或是自家演算法的方式去標記道路、行人等。這些客戶拿到這些具有標記的資料後,他們可以再去訓練自駕車不去撞到行人等。

為什麼資料標記在 AI /ML 重要 ?

在介紹 Scale 旗下產品以前,我們先來了解一直重複提到的關鍵字「資料標記」究竟是什麼?為什麼 Scale 產品都建立在資料標記的基礎上?

舉個我們多少都會碰到的例子:驗證碼。

無論是給你看一張圖正確輸入裡面的數字和英文字母,或是給你九張圖片要你選擇圖片中有車的照片,這過程就是一種資料標記。

簡單來說,電腦不知道圖片裡面的東西是什麼,在輸入驗證碼的資料標記過程,就是一種透過人力的方式,告訴電腦說圖片中有什麼物件。

付費訂閱
分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.