付費限定

資料標記獨角獸 Scale AI:如何成為 AI 時代的重要玩家?

更新於 發佈於 閱讀時間約 18 分鐘

Hi 我是 VK~

很常會看到 Scale AI 的消息,粗淺知道他們是在做資料標記(Data Labeling,或稱數據標記)。近來也有討論說資料會先用完,還是算力。剛好趁著這個機會深入了解 Scale AI 在做些什麼,他們如何解決資料標記的問題,以及在這領域中還有哪些玩家。

這期來聊聊 Scale AI 的早期故事,主要會聚焦討論:

  • 資料標記為什麼在 AI 時代下很重要?
  • Sclae AI 想要解決什麼事?他們如何解決?
  • 有多少玩家在資料標記領域?跟其他競爭者相比他優勢在哪?

喜歡這期的內容,歡迎分享給朋友一起訂閱《VK科技閱讀時間》,祝你今天一切順利~


在生成式 AI 時代下,成立不到十年的 Scale AI (以下簡稱 Scale)佔據一個迷人的位置。如果常關注科技新聞或訪談,會發現他的共同創辦人、執行長 Alexandr Wang 幾乎在近兩年內出現在各主流媒體、科技新創自媒體的節目,甚至前陣子 Ben Thompson 也找他訪談。

再加上,當有人問到誰是下個 Sam Altman 時,Y Combinator 共同創辦人 Paul Graham 覺得或許是 Alexandr Wang,對他的評價蠻不錯,主要也是 Scale 在早期加入過 YC。

如果憑直覺想一下,可以很快有個結論是:Scale 這家公司好像值得認識一下。這背後還有一個原因,當 OpenAI、Meta 和 Anthropic 等相繼推出參數更大的 AI 模型時,從 Scaling law 的角度來看,模型越大理想上模型性能會比小模型的好,這主要和訓練資料量的多寡、計算資源的效率有關。

大模型能在性能上有更好的表現,這和使用到的訓練資料量也更多有關。但你可能猜到了這會面臨到一個瓶頸:如果模型的參數量要再比現在更大,現有的資料量夠嗎?

當資料用完、大量資料不再能出奇蹟時,有更多的討論轉向資料的品質,也就是說當模型有良好的資料訓練時,理想上模型的準確性會越好。舉例來說,要建立專門診斷罕見疾病的模型來協助醫生識別特定疾病,但這會因為資料量稀少、資料品質不夠好,而在識別上變得很困難或不準確。

讓訓練模型的資料品質變得更好,是 Scale 正在做的事。他們的願景就是成為人工智慧和機器學習應用層背後的基礎設施。要有好的模型性能,取決於訓練的資料多寡與品質,這之中又可以再推進:如何用更有效率的方式訓練模型,像是用更少但更好的資料量。

raw-image

為什麼成立 Scale:資料將成為新程式碼

目前成立 8 年的 Scale 主要是為 AI 和機器學習提供資料標註服務,之中 OpenAI、微軟和美國國防部等都是他們的客戶。他們最新的估值也來到約 138 億美元,新一輪融資由現有投資者 Accel 領投,也有亞馬遜、Meta、英特爾、AMD 和輝達等參與。

Scale 會廣泛被大眾關注,不僅是他們的題目、融資情況,還有共同創辦人 Alexandr Wang 的成長和創業故事,為整家公司增添了幾分讓人有想像空間(或討喜)的元素。

簡單介紹一下目前不到 30 歲的 Alexandr Wang,1997 年在新墨西哥州洛斯阿拉莫斯出生,這地方有個美國國家實驗室,過去也正好是曼哈頓計畫的原址。他身為物理學者的父母就在實驗室工作。Alexandr Wang 提到,「在這地方每個人不是科學家,就是家中至少有個成員是科學家在實驗室工作。」

這也讓 Alexandr Wang 在數學和物理的奧林匹克競賽上表現非常優異。幾乎在高中時期他就收到許多矽谷科技公司的 offer,最終他在 2014 年加入 Quora,擔任專注速度優化的工程師,同時也是在這階段他認識了產品設計師 Lucy Guo,並在後來成為 Scale 共同創辦人。

但為什麼是挑資料來做?為什麼是資料標記?

Alexandr Wang 在離開 Quora 後,去讀了麻省理工學院(MIT)開始接觸、學習很多與機器學習、深度學習、人工智慧等有關的概念。這時的他發現,「儘管 MIT 有數百名學生,他們都是才華橫溢、非常勤奮的人,但沒有人用 AI 建立任何東西。我們都在研究 AI。當我深入研究它時,我意識到資料是這些人構建有意義 AI 的最大瓶頸。為了給資料添加智慧,使其可用於機器學習,我們花費了大量的時間和資源。沒有標準化的工具或基礎設施,沒有 AWS、Stripe 或 Twilio 來解決這個問題。」

「我甚至親身發現了它,因為我想在我的冰箱裡安裝一個攝影機,這樣它就可以告訴我什麼時候補充我的雜貨以及我需要買什麼。即便如此,我也沒有任何資料來讓它工作。」這段觀察可以很好映證貫穿 Scale AI 的兩個概念:資料、基礎設施。

  1. 資料在 AI 時代將成為關鍵:Alexandr Wang 認為在 AI 時代下資料就是新的程式碼(data is the new code)。這原因在於模型是由算力、演算法和資料這三件事組成,前兩者有像是 NVIDIA 等科技公司在做,但處理資料方面卻非常少人做。這確實也給了他們一個很好進入市場的機會。
  2. 成為 AI 時代下的基礎設施:雖然他的同學都非常了解 AI,但卻沒有建立任何 AI 產品,Alexandr Wang 認為這背後的關鍵是缺少構建模型需要的良好資料。這也是市場上缺少的,如果要讓人類和機器學習能力之間的差距縮小,需要有準確標記的資料集來訓練人工智慧模型。這也是 Scale AI 想要做的事,成為其他 AI 應用層的基礎設施。

Scale API

2016 年,Alexandr Wang 和 Lucy Guo 分別從 MIT、卡內基梅隆大學輟學,決定一起創業。同時在這一年他們加入 YC,並在後來拿到了種子輪 12 萬美元。

不過一開始他們不叫 Scale AI,而是 Scale API,它們當時在做的是為人類任務創建一個 API。也就是說,有一些看起來重複、簡單的任務,人類會比演算法更適合進行,所以他們會透過人力外包的方式,來完成像是內容審核、資料擷取等任務,公司也不需要雇用內部團隊來做這些事。

raw-image

Scale AI

這時他們注意到 AI 訓練資料的需求不斷成長,他們有機會做得更多,而且在 AI 和機器學習領域扮演重要角色。甚至成為像提供雲端服務的 AWS 或提供線上支付服務的 Stripe 等的基礎設施提供商。

到了 2018 年,他們正式改名為 Scale AI,這時 Lucy Guo 離開 Scale,展開她的新創業:Backend Capital。

Scale AI 的重心開始變成資料標記、註釋的平臺,幫助客戶把他們原始資料變成可以用在 AI 開發的高品質訓練資料。舉例來說,像通用汽車的 Cruise、Zoox、Nuro 等客戶會把所有原始資料(未標記的資料)提供給 Scale,讓 Scale 透過人力外包或是自家演算法的方式去標記道路、行人等。這些客戶拿到這些具有標記的資料後,他們可以再去訓練自駕車不去撞到行人等。

raw-image

為什麼資料標記在 AI /ML 重要 ?

在介紹 Scale 旗下產品以前,我們先來了解一直重複提到的關鍵字「資料標記」究竟是什麼?為什麼 Scale 產品都建立在資料標記的基礎上?

舉個我們多少都會碰到的例子:驗證碼。

無論是給你看一張圖正確輸入裡面的數字和英文字母,或是給你九張圖片要你選擇圖片中有車的照片,這過程就是一種資料標記。

簡單來說,電腦不知道圖片裡面的東西是什麼,在輸入驗證碼的資料標記過程,就是一種透過人力的方式,告訴電腦說圖片中有什麼物件。

以行動支持創作者!付費即可解鎖
本篇內容共 7421 字、0 則留言,僅發佈於VK科技閱讀時間你目前無法檢視以下內容,可能因為尚未登入,或沒有該房間的查看權限。
留言
avatar-img
留言分享你的想法!
avatar-img
VK科技閱讀時間
30.7K會員
94內容數
Hi,我是 VK~ 好奇科技發展、想看懂科技趨勢和新創的眉角。決定每週記錄下那些我感興趣、還看不懂的事。這裡會聊很多科技公司、新創,他們背後的人物與故事。
VK科技閱讀時間的其他內容
2025/04/21
Hi 我是 VK~ 前兩週,Shopify 共同創辦人兼執行長 Tobi Lütke 公開一份內部備忘錄,在 X 上廣為流傳。這份題為「反射性 AI 使用現在是 Shopify 的基本期望」(Reflexive AI usage is now a baseline expectation at S
Thumbnail
2025/04/21
Hi 我是 VK~ 前兩週,Shopify 共同創辦人兼執行長 Tobi Lütke 公開一份內部備忘錄,在 X 上廣為流傳。這份題為「反射性 AI 使用現在是 Shopify 的基本期望」(Reflexive AI usage is now a baseline expectation at S
Thumbnail
2025/04/07
在雲端安全領域鮮少有公司能像 Wiz 一樣傳奇,在 2020 年成立,不到五年後以 320 億美元賣給 Google 母公司 Alphabet。這也是 Alphabet 史上最大收購案,更是全球安全產業最大交易之一。 更驚人的是,Wiz 起步時的市場已有十多家競爭對手,但他們成功突圍 18 個月內
Thumbnail
2025/04/07
在雲端安全領域鮮少有公司能像 Wiz 一樣傳奇,在 2020 年成立,不到五年後以 320 億美元賣給 Google 母公司 Alphabet。這也是 Alphabet 史上最大收購案,更是全球安全產業最大交易之一。 更驚人的是,Wiz 起步時的市場已有十多家競爭對手,但他們成功突圍 18 個月內
Thumbnail
2025/03/31
Hi 我是 VK~ 這次要談的不是一般的科技公司發展故事,而是一場在矽谷科技圈上演的商業間諜案!你沒看錯,這是近期真實發生在人力資源(HR)科技公司之間的商業間諜活動。 今天這場事件的主角是兩家 HR 科技獨角獸 Rippling 和 Deel,在 2025 年 3 月爆發的這起商業間諜案,在一
Thumbnail
2025/03/31
Hi 我是 VK~ 這次要談的不是一般的科技公司發展故事,而是一場在矽谷科技圈上演的商業間諜案!你沒看錯,這是近期真實發生在人力資源(HR)科技公司之間的商業間諜活動。 今天這場事件的主角是兩家 HR 科技獨角獸 Rippling 和 Deel,在 2025 年 3 月爆發的這起商業間諜案,在一
Thumbnail
看更多
你可能也想看
Thumbnail
家中修繕或裝潢想要找各種小零件時,直接上網採買可以省去不少煩惱~看看Sylvia這回為了工地買了些什麼吧~
Thumbnail
家中修繕或裝潢想要找各種小零件時,直接上網採買可以省去不少煩惱~看看Sylvia這回為了工地買了些什麼吧~
Thumbnail
👜簡單生活,從整理包包開始!我的三款愛用包+隨身小物清單開箱,一起來看看我每天都帶些什麼吧🌿✨
Thumbnail
👜簡單生活,從整理包包開始!我的三款愛用包+隨身小物清單開箱,一起來看看我每天都帶些什麼吧🌿✨
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
Hi 我是 VK~ 很常會看到 Scale AI 的消息,粗淺知道他們是在做資料標記(Data Labeling,或稱數據標記)。近來也有討論說資料會先用完,還是算力。剛好趁著這個機會深入了解 Scale AI 在做些什麼,他們如何解決資料標記的問題,以及在這領域中還有哪些玩家。 這期來聊聊 S
Thumbnail
Hi 我是 VK~ 很常會看到 Scale AI 的消息,粗淺知道他們是在做資料標記(Data Labeling,或稱數據標記)。近來也有討論說資料會先用完,還是算力。剛好趁著這個機會深入了解 Scale AI 在做些什麼,他們如何解決資料標記的問題,以及在這領域中還有哪些玩家。 這期來聊聊 S
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
最新的AI趨勢讓人眼花撩亂,不知要如何開始學習?本文介紹了作者對AI的使用和體驗,以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具,可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心,不停止學習,並提出了對健康生活和開心生活的祝福。
Thumbnail
最新的AI趨勢讓人眼花撩亂,不知要如何開始學習?本文介紹了作者對AI的使用和體驗,以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具,可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心,不停止學習,並提出了對健康生活和開心生活的祝福。
Thumbnail
AI 的快速發展,顛覆了各個產業的發展,ChatGPT 的出現,加快了作家寫作的速度,加快了工程師寫程式的速度,世界正在快速的改變。許多人開始探究自己的工作會不會被 AI 取代,身為資料領域的工作者,我也開始在思考,當 AI 的能力不斷進化且遠遠超過人類時,在我的工作中有哪些任務交給 AI 會更
Thumbnail
AI 的快速發展,顛覆了各個產業的發展,ChatGPT 的出現,加快了作家寫作的速度,加快了工程師寫程式的速度,世界正在快速的改變。許多人開始探究自己的工作會不會被 AI 取代,身為資料領域的工作者,我也開始在思考,當 AI 的能力不斷進化且遠遠超過人類時,在我的工作中有哪些任務交給 AI 會更
Thumbnail
在數位化的世界中,用戶介面和信息圖表等視覺元素扮演著越來越重要的角色,而ScreenAI的開發為自然語言處理和計算機視覺的融合開啟了新的可能性。
Thumbnail
在數位化的世界中,用戶介面和信息圖表等視覺元素扮演著越來越重要的角色,而ScreenAI的開發為自然語言處理和計算機視覺的融合開啟了新的可能性。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News