付費限定

資料標記獨角獸 Scale AI:如何成為 AI 時代的重要玩家?

閱讀時間約 18 分鐘

Hi 我是 VK~

很常會看到 Scale AI 的消息,粗淺知道他們是在做資料標記(Data Labeling,或稱數據標記)。近來也有討論說資料會先用完,還是算力。剛好趁著這個機會深入了解 Scale AI 在做些什麼,他們如何解決資料標記的問題,以及在這領域中還有哪些玩家。

這期來聊聊 Scale AI 的早期故事,主要會聚焦討論:

  • 資料標記為什麼在 AI 時代下很重要?
  • Sclae AI 想要解決什麼事?他們如何解決?
  • 有多少玩家在資料標記領域?跟其他競爭者相比他優勢在哪?

喜歡這期的內容,歡迎分享給朋友一起訂閱《VK科技閱讀時間》,祝你今天一切順利~


在生成式 AI 時代下,成立不到十年的 Scale AI (以下簡稱 Scale)佔據一個迷人的位置。如果常關注科技新聞或訪談,會發現他的共同創辦人、執行長 Alexandr Wang 幾乎在近兩年內出現在各主流媒體、科技新創自媒體的節目,甚至前陣子 Ben Thompson 也找他訪談。

再加上,當有人問到誰是下個 Sam Altman 時,Y Combinator 共同創辦人 Paul Graham 覺得或許是 Alexandr Wang,對他的評價蠻不錯,主要也是 Scale 在早期加入過 YC。

如果憑直覺想一下,可以很快有個結論是:Scale 這家公司好像值得認識一下。這背後還有一個原因,當 OpenAI、Meta 和 Anthropic 等相繼推出參數更大的 AI 模型時,從 Scaling law 的角度來看,模型越大理想上模型性能會比小模型的好,這主要和訓練資料量的多寡、計算資源的效率有關。

大模型能在性能上有更好的表現,這和使用到的訓練資料量也更多有關。但你可能猜到了這會面臨到一個瓶頸:如果模型的參數量要再比現在更大,現有的資料量夠嗎?

當資料用完、大量資料不再能出奇蹟時,有更多的討論轉向資料的品質,也就是說當模型有良好的資料訓練時,理想上模型的準確性會越好。舉例來說,要建立專門診斷罕見疾病的模型來協助醫生識別特定疾病,但這會因為資料量稀少、資料品質不夠好,而在識別上變得很困難或不準確。

讓訓練模型的資料品質變得更好,是 Scale 正在做的事。他們的願景就是成為人工智慧和機器學習應用層背後的基礎設施。要有好的模型性能,取決於訓練的資料多寡與品質,這之中又可以再推進:如何用更有效率的方式訓練模型,像是用更少但更好的資料量。

raw-image

為什麼成立 Scale:資料將成為新程式碼

目前成立 8 年的 Scale 主要是為 AI 和機器學習提供資料標註服務,之中 OpenAI、微軟和美國國防部等都是他們的客戶。他們最新的估值也來到約 138 億美元,新一輪融資由現有投資者 Accel 領投,也有亞馬遜、Meta、英特爾、AMD 和輝達等參與。

Scale 會廣泛被大眾關注,不僅是他們的題目、融資情況,還有共同創辦人 Alexandr Wang 的成長和創業故事,為整家公司增添了幾分讓人有想像空間(或討喜)的元素。

簡單介紹一下目前不到 30 歲的 Alexandr Wang,1997 年在新墨西哥州洛斯阿拉莫斯出生,這地方有個美國國家實驗室,過去也正好是曼哈頓計畫的原址。他身為物理學者的父母就在實驗室工作。Alexandr Wang 提到,「在這地方每個人不是科學家,就是家中至少有個成員是科學家在實驗室工作。」

這也讓 Alexandr Wang 在數學和物理的奧林匹克競賽上表現非常優異。幾乎在高中時期他就收到許多矽谷科技公司的 offer,最終他在 2014 年加入 Quora,擔任專注速度優化的工程師,同時也是在這階段他認識了產品設計師 Lucy Guo,並在後來成為 Scale 共同創辦人。

但為什麼是挑資料來做?為什麼是資料標記?

Alexandr Wang 在離開 Quora 後,去讀了麻省理工學院(MIT)開始接觸、學習很多與機器學習、深度學習、人工智慧等有關的概念。這時的他發現,「儘管 MIT 有數百名學生,他們都是才華橫溢、非常勤奮的人,但沒有人用 AI 建立任何東西。我們都在研究 AI。當我深入研究它時,我意識到資料是這些人構建有意義 AI 的最大瓶頸。為了給資料添加智慧,使其可用於機器學習,我們花費了大量的時間和資源。沒有標準化的工具或基礎設施,沒有 AWS、Stripe 或 Twilio 來解決這個問題。」

「我甚至親身發現了它,因為我想在我的冰箱裡安裝一個攝影機,這樣它就可以告訴我什麼時候補充我的雜貨以及我需要買什麼。即便如此,我也沒有任何資料來讓它工作。」這段觀察可以很好映證貫穿 Scale AI 的兩個概念:資料、基礎設施。

  1. 資料在 AI 時代將成為關鍵:Alexandr Wang 認為在 AI 時代下資料就是新的程式碼(data is the new code)。這原因在於模型是由算力、演算法和資料這三件事組成,前兩者有像是 NVIDIA 等科技公司在做,但處理資料方面卻非常少人做。這確實也給了他們一個很好進入市場的機會。
  2. 成為 AI 時代下的基礎設施:雖然他的同學都非常了解 AI,但卻沒有建立任何 AI 產品,Alexandr Wang 認為這背後的關鍵是缺少構建模型需要的良好資料。這也是市場上缺少的,如果要讓人類和機器學習能力之間的差距縮小,需要有準確標記的資料集來訓練人工智慧模型。這也是 Scale AI 想要做的事,成為其他 AI 應用層的基礎設施。

Scale API

2016 年,Alexandr Wang 和 Lucy Guo 分別從 MIT、卡內基梅隆大學輟學,決定一起創業。同時在這一年他們加入 YC,並在後來拿到了種子輪 12 萬美元。

不過一開始他們不叫 Scale AI,而是 Scale API,它們當時在做的是為人類任務創建一個 API。也就是說,有一些看起來重複、簡單的任務,人類會比演算法更適合進行,所以他們會透過人力外包的方式,來完成像是內容審核、資料擷取等任務,公司也不需要雇用內部團隊來做這些事。

raw-image

Scale AI

這時他們注意到 AI 訓練資料的需求不斷成長,他們有機會做得更多,而且在 AI 和機器學習領域扮演重要角色。甚至成為像提供雲端服務的 AWS 或提供線上支付服務的 Stripe 等的基礎設施提供商。

到了 2018 年,他們正式改名為 Scale AI,這時 Lucy Guo 離開 Scale,展開她的新創業:Backend Capital。

Scale AI 的重心開始變成資料標記、註釋的平臺,幫助客戶把他們原始資料變成可以用在 AI 開發的高品質訓練資料。舉例來說,像通用汽車的 Cruise、Zoox、Nuro 等客戶會把所有原始資料(未標記的資料)提供給 Scale,讓 Scale 透過人力外包或是自家演算法的方式去標記道路、行人等。這些客戶拿到這些具有標記的資料後,他們可以再去訓練自駕車不去撞到行人等。

raw-image

為什麼資料標記在 AI /ML 重要 ?

在介紹 Scale 旗下產品以前,我們先來了解一直重複提到的關鍵字「資料標記」究竟是什麼?為什麼 Scale 產品都建立在資料標記的基礎上?

舉個我們多少都會碰到的例子:驗證碼。

無論是給你看一張圖正確輸入裡面的數字和英文字母,或是給你九張圖片要你選擇圖片中有車的照片,這過程就是一種資料標記。

簡單來說,電腦不知道圖片裡面的東西是什麼,在輸入驗證碼的資料標記過程,就是一種透過人力的方式,告訴電腦說圖片中有什麼物件。

以行動支持創作者!付費即可解鎖
本篇內容共 7421 字、0 則留言,僅發佈於VK科技閱讀時間You currently cannot view the following content, possibly because you are not logged in or do not have permission to view the room.
15.9K會員
53Content count
Hi,我是 VK~ 好奇科技發展、想看懂科技趨勢和新創的眉角。決定每週記錄下那些我感興趣、還看不懂的事。這裡會聊很多科技公司、新創,他們背後的人物與故事。
留言0
查看全部
發表第一個留言支持創作者!
VK科技閱讀時間 的其他內容
Hi 我是 VK~ 過去聊過幾次 Canva 的創業故事﹑商業策略等,前陣子在 Podcast 中也找了 Simon 聊聊。但講到設計領域的重要公司,還少了一重要拼圖:設計巨人 Adobe。 這期來聊聊 Adobe 的早期故事,以及他們如何度過營收低谷走到今日。主要會聚焦討論: Adobe 兩
Hi 我是 VK~ 始終覺得精進(Mastery)、偉大(Great)這些概念是個好的目標,但要如何理解或追求似乎又變得很抽象。 這問題在 Paul Graham 寫出〈How to Do Great Work〉後,讀了數次後,對偉大的概念還是有點模糊。這問題在寫到偉大的公司和人物時,時不時就會
Hi 我是 VK~ NVIDIA 執行長黃仁勳在今年 2 月《連線》雜誌採訪時透露,「我一直在用 Perplexity,不過也很喜歡 ChatGPT,我幾乎每天都會使用這兩款 AI 工具。」 這期來聊聊 AI 新創 Perplexity 他們的成立故事,並聚焦在: 為什麼 Perplexity
Hi 我是 VK~ 這期來聊聊 YouTube 上的「3C 評測之王」 MKBHD。他在早期是如何成為 YouTuber,到如今建立近 2000 萬訂戶的媒體事業? MKBHD 在十多年的創作生涯中,有什麼是他堅持的原則?他對觀眾的了解,如何幫助他打造科技產品評測的內容?Humane AI Pi
Hi 我是 VK~ 上月剛好是 Apple WWDC 大會,加上近來有許多 Apple 下任執行長接班人傳言的人選。這也是個蠻好的時機來回顧現任執行長庫克(Tim Cook)他接任蘋果執行長後有哪些創新成功與失敗的地方。 這期主要會聚焦在: 不是「產品人」出身的庫克,為什麼讓賈伯斯親自招募他加
Hi 我是 VK~ 這期,來聊聊 Rick Rubin 的書《創造力的修行:打開一切可能》,一位傳奇音樂製作人他的創作指南。曾是聯合公園、Adele 等人幕後推手的 Rubin 是誰? 這本書萃取了他在音樂產業內數十年的經驗,他對於創造、品味等主題的思考。這期會聚焦在談他的創作指南,可以如何帶給
Hi 我是 VK~ 過去聊過幾次 Canva 的創業故事﹑商業策略等,前陣子在 Podcast 中也找了 Simon 聊聊。但講到設計領域的重要公司,還少了一重要拼圖:設計巨人 Adobe。 這期來聊聊 Adobe 的早期故事,以及他們如何度過營收低谷走到今日。主要會聚焦討論: Adobe 兩
Hi 我是 VK~ 始終覺得精進(Mastery)、偉大(Great)這些概念是個好的目標,但要如何理解或追求似乎又變得很抽象。 這問題在 Paul Graham 寫出〈How to Do Great Work〉後,讀了數次後,對偉大的概念還是有點模糊。這問題在寫到偉大的公司和人物時,時不時就會
Hi 我是 VK~ NVIDIA 執行長黃仁勳在今年 2 月《連線》雜誌採訪時透露,「我一直在用 Perplexity,不過也很喜歡 ChatGPT,我幾乎每天都會使用這兩款 AI 工具。」 這期來聊聊 AI 新創 Perplexity 他們的成立故事,並聚焦在: 為什麼 Perplexity
Hi 我是 VK~ 這期來聊聊 YouTube 上的「3C 評測之王」 MKBHD。他在早期是如何成為 YouTuber,到如今建立近 2000 萬訂戶的媒體事業? MKBHD 在十多年的創作生涯中,有什麼是他堅持的原則?他對觀眾的了解,如何幫助他打造科技產品評測的內容?Humane AI Pi
Hi 我是 VK~ 上月剛好是 Apple WWDC 大會,加上近來有許多 Apple 下任執行長接班人傳言的人選。這也是個蠻好的時機來回顧現任執行長庫克(Tim Cook)他接任蘋果執行長後有哪些創新成功與失敗的地方。 這期主要會聚焦在: 不是「產品人」出身的庫克,為什麼讓賈伯斯親自招募他加
Hi 我是 VK~ 這期,來聊聊 Rick Rubin 的書《創造力的修行:打開一切可能》,一位傳奇音樂製作人他的創作指南。曾是聯合公園、Adele 等人幕後推手的 Rubin 是誰? 這本書萃取了他在音樂產業內數十年的經驗,他對於創造、品味等主題的思考。這期會聚焦在談他的創作指南,可以如何帶給
你可能也想看
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
機器學習領域的專業人士可以從這篇文章中獲得寶貴的見解。 追求更大的數據集和更強大的模型一直是提升性能的核心策略。 以下是我在機器學習領域工作7年後的三個重大體悟。 ▋體悟1 - 大數據的重要性 自2009年ImageNet問世以來, 數據集的規模和質量對機器學習的影響越
Thumbnail
在這個網上共享信息時代,大數據已成為推動許多行業創新的核心力量。從提升客戶體驗到優化運營效率,大數據的應用範圍日益擴大。然而,隨著技術的快速發展,實施大數據項目也帶來了不少挑戰。本文將探討大數據技術的最新趨勢,分析其在不同行業中的實際應用,並討論實施過程中的主要挑戰。
Thumbnail
最新的AI趨勢讓人眼花撩亂,不知要如何開始學習?本文介紹了作者對AI的使用和體驗,以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具,可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心,不停止學習,並提出了對健康生活和開心生活的祝福。
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
機器學習領域的專業人士可以從這篇文章中獲得寶貴的見解。 追求更大的數據集和更強大的模型一直是提升性能的核心策略。 以下是我在機器學習領域工作7年後的三個重大體悟。 ▋體悟1 - 大數據的重要性 自2009年ImageNet問世以來, 數據集的規模和質量對機器學習的影響越
Thumbnail
在這個網上共享信息時代,大數據已成為推動許多行業創新的核心力量。從提升客戶體驗到優化運營效率,大數據的應用範圍日益擴大。然而,隨著技術的快速發展,實施大數據項目也帶來了不少挑戰。本文將探討大數據技術的最新趨勢,分析其在不同行業中的實際應用,並討論實施過程中的主要挑戰。
Thumbnail
最新的AI趨勢讓人眼花撩亂,不知要如何開始學習?本文介紹了作者對AI的使用和體驗,以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具,可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心,不停止學習,並提出了對健康生活和開心生活的祝福。