Hi 我是 VK~
很常會看到 Scale AI 的消息,粗淺知道他們是在做資料標記(Data Labeling,或稱數據標記)。近來也有討論說資料會先用完,還是算力。剛好趁著這個機會深入了解 Scale AI 在做些什麼,他們如何解決資料標記的問題,以及在這領域中還有哪些玩家。
這期來聊聊 Scale AI 的早期故事,主要會聚焦討論:
喜歡這期的內容,歡迎分享給朋友一起訂閱《VK科技閱讀時間》,祝你今天一切順利~
在生成式 AI 時代下,成立不到十年的 Scale AI (以下簡稱 Scale)佔據一個迷人的位置。如果常關注科技新聞或訪談,會發現他的共同創辦人、執行長 Alexandr Wang 幾乎在近兩年內出現在各主流媒體、科技新創自媒體的節目,甚至前陣子 Ben Thompson 也找他訪談。
再加上,當有人問到誰是下個 Sam Altman 時,Y Combinator 共同創辦人 Paul Graham 覺得或許是 Alexandr Wang,對他的評價蠻不錯,主要也是 Scale 在早期加入過 YC。
如果憑直覺想一下,可以很快有個結論是:Scale 這家公司好像值得認識一下。這背後還有一個原因,當 OpenAI、Meta 和 Anthropic 等相繼推出參數更大的 AI 模型時,從 Scaling law 的角度來看,模型越大理想上模型性能會比小模型的好,這主要和訓練資料量的多寡、計算資源的效率有關。
大模型能在性能上有更好的表現,這和使用到的訓練資料量也更多有關。但你可能猜到了這會面臨到一個瓶頸:如果模型的參數量要再比現在更大,現有的資料量夠嗎?
當資料用完、大量資料不再能出奇蹟時,有更多的討論轉向資料的品質,也就是說當模型有良好的資料訓練時,理想上模型的準確性會越好。舉例來說,要建立專門診斷罕見疾病的模型來協助醫生識別特定疾病,但這會因為資料量稀少、資料品質不夠好,而在識別上變得很困難或不準確。
讓訓練模型的資料品質變得更好,是 Scale 正在做的事。他們的願景就是成為人工智慧和機器學習應用層背後的基礎設施。要有好的模型性能,取決於訓練的資料多寡與品質,這之中又可以再推進:如何用更有效率的方式訓練模型,像是用更少但更好的資料量。
目前成立 8 年的 Scale 主要是為 AI 和機器學習提供資料標註服務,之中 OpenAI、微軟和美國國防部等都是他們的客戶。他們最新的估值也來到約 138 億美元,新一輪融資由現有投資者 Accel 領投,也有亞馬遜、Meta、英特爾、AMD 和輝達等參與。
Scale 會廣泛被大眾關注,不僅是他們的題目、融資情況,還有共同創辦人 Alexandr Wang 的成長和創業故事,為整家公司增添了幾分讓人有想像空間(或討喜)的元素。
簡單介紹一下目前不到 30 歲的 Alexandr Wang,1997 年在新墨西哥州洛斯阿拉莫斯出生,這地方有個美國國家實驗室,過去也正好是曼哈頓計畫的原址。他身為物理學者的父母就在實驗室工作。Alexandr Wang 提到,「在這地方每個人不是科學家,就是家中至少有個成員是科學家在實驗室工作。」
這也讓 Alexandr Wang 在數學和物理的奧林匹克競賽上表現非常優異。幾乎在高中時期他就收到許多矽谷科技公司的 offer,最終他在 2014 年加入 Quora,擔任專注速度優化的工程師,同時也是在這階段他認識了產品設計師 Lucy Guo,並在後來成為 Scale 共同創辦人。
但為什麼是挑資料來做?為什麼是資料標記?
Alexandr Wang 在離開 Quora 後,去讀了麻省理工學院(MIT)開始接觸、學習很多與機器學習、深度學習、人工智慧等有關的概念。這時的他發現,「儘管 MIT 有數百名學生,他們都是才華橫溢、非常勤奮的人,但沒有人用 AI 建立任何東西。我們都在研究 AI。當我深入研究它時,我意識到資料是這些人構建有意義 AI 的最大瓶頸。為了給資料添加智慧,使其可用於機器學習,我們花費了大量的時間和資源。沒有標準化的工具或基礎設施,沒有 AWS、Stripe 或 Twilio 來解決這個問題。」
「我甚至親身發現了它,因為我想在我的冰箱裡安裝一個攝影機,這樣它就可以告訴我什麼時候補充我的雜貨以及我需要買什麼。即便如此,我也沒有任何資料來讓它工作。」這段觀察可以很好映證貫穿 Scale AI 的兩個概念:資料、基礎設施。
2016 年,Alexandr Wang 和 Lucy Guo 分別從 MIT、卡內基梅隆大學輟學,決定一起創業。同時在這一年他們加入 YC,並在後來拿到了種子輪 12 萬美元。
不過一開始他們不叫 Scale AI,而是 Scale API,它們當時在做的是為人類任務創建一個 API。也就是說,有一些看起來重複、簡單的任務,人類會比演算法更適合進行,所以他們會透過人力外包的方式,來完成像是內容審核、資料擷取等任務,公司也不需要雇用內部團隊來做這些事。
這時他們注意到 AI 訓練資料的需求不斷成長,他們有機會做得更多,而且在 AI 和機器學習領域扮演重要角色。甚至成為像提供雲端服務的 AWS 或提供線上支付服務的 Stripe 等的基礎設施提供商。
到了 2018 年,他們正式改名為 Scale AI,這時 Lucy Guo 離開 Scale,展開她的新創業:Backend Capital。
Scale AI 的重心開始變成資料標記、註釋的平臺,幫助客戶把他們原始資料變成可以用在 AI 開發的高品質訓練資料。舉例來說,像通用汽車的 Cruise、Zoox、Nuro 等客戶會把所有原始資料(未標記的資料)提供給 Scale,讓 Scale 透過人力外包或是自家演算法的方式去標記道路、行人等。這些客戶拿到這些具有標記的資料後,他們可以再去訓練自駕車不去撞到行人等。
在介紹 Scale 旗下產品以前,我們先來了解一直重複提到的關鍵字「資料標記」究竟是什麼?為什麼 Scale 產品都建立在資料標記的基礎上?
舉個我們多少都會碰到的例子:驗證碼。
無論是給你看一張圖正確輸入裡面的數字和英文字母,或是給你九張圖片要你選擇圖片中有車的照片,這過程就是一種資料標記。
簡單來說,電腦不知道圖片裡面的東西是什麼,在輸入驗證碼的資料標記過程,就是一種透過人力的方式,告訴電腦說圖片中有什麼物件。