付費限定

資料標記獨角獸 Scale AI:如何成為 AI 時代的重要玩家?

閱讀時間約 18 分鐘

Hi 我是 VK~

很常會看到 Scale AI 的消息,粗淺知道他們是在做資料標記(Data Labeling,或稱數據標記)。近來也有討論說資料會先用完,還是算力。剛好趁著這個機會深入了解 Scale AI 在做些什麼,他們如何解決資料標記的問題,以及在這領域中還有哪些玩家。

這期來聊聊 Scale AI 的早期故事,主要會聚焦討論:

  • 資料標記為什麼在 AI 時代下很重要?
  • Sclae AI 想要解決什麼事?他們如何解決?
  • 有多少玩家在資料標記領域?跟其他競爭者相比他優勢在哪?

喜歡這期的內容,歡迎分享給朋友一起訂閱《VK科技閱讀時間》,祝你今天一切順利~


在生成式 AI 時代下,成立不到十年的 Scale AI (以下簡稱 Scale)佔據一個迷人的位置。如果常關注科技新聞或訪談,會發現他的共同創辦人、執行長 Alexandr Wang 幾乎在近兩年內出現在各主流媒體、科技新創自媒體的節目,甚至前陣子 Ben Thompson 也找他訪談。

再加上,當有人問到誰是下個 Sam Altman 時,Y Combinator 共同創辦人 Paul Graham 覺得或許是 Alexandr Wang,對他的評價蠻不錯,主要也是 Scale 在早期加入過 YC。

如果憑直覺想一下,可以很快有個結論是:Scale 這家公司好像值得認識一下。這背後還有一個原因,當 OpenAI、Meta 和 Anthropic 等相繼推出參數更大的 AI 模型時,從 Scaling law 的角度來看,模型越大理想上模型性能會比小模型的好,這主要和訓練資料量的多寡、計算資源的效率有關。

大模型能在性能上有更好的表現,這和使用到的訓練資料量也更多有關。但你可能猜到了這會面臨到一個瓶頸:如果模型的參數量要再比現在更大,現有的資料量夠嗎?

當資料用完、大量資料不再能出奇蹟時,有更多的討論轉向資料的品質,也就是說當模型有良好的資料訓練時,理想上模型的準確性會越好。舉例來說,要建立專門診斷罕見疾病的模型來協助醫生識別特定疾病,但這會因為資料量稀少、資料品質不夠好,而在識別上變得很困難或不準確。

讓訓練模型的資料品質變得更好,是 Scale 正在做的事。他們的願景就是成為人工智慧和機器學習應用層背後的基礎設施。要有好的模型性能,取決於訓練的資料多寡與品質,這之中又可以再推進:如何用更有效率的方式訓練模型,像是用更少但更好的資料量。

raw-image

為什麼成立 Scale:資料將成為新程式碼

目前成立 8 年的 Scale 主要是為 AI 和機器學習提供資料標註服務,之中 OpenAI、微軟和美國國防部等都是他們的客戶。他們最新的估值也來到約 138 億美元,新一輪融資由現有投資者 Accel 領投,也有亞馬遜、Meta、英特爾、AMD 和輝達等參與。

Scale 會廣泛被大眾關注,不僅是他們的題目、融資情況,還有共同創辦人 Alexandr Wang 的成長和創業故事,為整家公司增添了幾分讓人有想像空間(或討喜)的元素。

簡單介紹一下目前不到 30 歲的 Alexandr Wang,1997 年在新墨西哥州洛斯阿拉莫斯出生,這地方有個美國國家實驗室,過去也正好是曼哈頓計畫的原址。他身為物理學者的父母就在實驗室工作。Alexandr Wang 提到,「在這地方每個人不是科學家,就是家中至少有個成員是科學家在實驗室工作。」

這也讓 Alexandr Wang 在數學和物理的奧林匹克競賽上表現非常優異。幾乎在高中時期他就收到許多矽谷科技公司的 offer,最終他在 2014 年加入 Quora,擔任專注速度優化的工程師,同時也是在這階段他認識了產品設計師 Lucy Guo,並在後來成為 Scale 共同創辦人。

但為什麼是挑資料來做?為什麼是資料標記?

Alexandr Wang 在離開 Quora 後,去讀了麻省理工學院(MIT)開始接觸、學習很多與機器學習、深度學習、人工智慧等有關的概念。這時的他發現,「儘管 MIT 有數百名學生,他們都是才華橫溢、非常勤奮的人,但沒有人用 AI 建立任何東西。我們都在研究 AI。當我深入研究它時,我意識到資料是這些人構建有意義 AI 的最大瓶頸。為了給資料添加智慧,使其可用於機器學習,我們花費了大量的時間和資源。沒有標準化的工具或基礎設施,沒有 AWS、Stripe 或 Twilio 來解決這個問題。」

「我甚至親身發現了它,因為我想在我的冰箱裡安裝一個攝影機,這樣它就可以告訴我什麼時候補充我的雜貨以及我需要買什麼。即便如此,我也沒有任何資料來讓它工作。」這段觀察可以很好映證貫穿 Scale AI 的兩個概念:資料、基礎設施。

  1. 資料在 AI 時代將成為關鍵:Alexandr Wang 認為在 AI 時代下資料就是新的程式碼(data is the new code)。這原因在於模型是由算力、演算法和資料這三件事組成,前兩者有像是 NVIDIA 等科技公司在做,但處理資料方面卻非常少人做。這確實也給了他們一個很好進入市場的機會。
  2. 成為 AI 時代下的基礎設施:雖然他的同學都非常了解 AI,但卻沒有建立任何 AI 產品,Alexandr Wang 認為這背後的關鍵是缺少構建模型需要的良好資料。這也是市場上缺少的,如果要讓人類和機器學習能力之間的差距縮小,需要有準確標記的資料集來訓練人工智慧模型。這也是 Scale AI 想要做的事,成為其他 AI 應用層的基礎設施。

Scale API

2016 年,Alexandr Wang 和 Lucy Guo 分別從 MIT、卡內基梅隆大學輟學,決定一起創業。同時在這一年他們加入 YC,並在後來拿到了種子輪 12 萬美元。

不過一開始他們不叫 Scale AI,而是 Scale API,它們當時在做的是為人類任務創建一個 API。也就是說,有一些看起來重複、簡單的任務,人類會比演算法更適合進行,所以他們會透過人力外包的方式,來完成像是內容審核、資料擷取等任務,公司也不需要雇用內部團隊來做這些事。

raw-image

Scale AI

這時他們注意到 AI 訓練資料的需求不斷成長,他們有機會做得更多,而且在 AI 和機器學習領域扮演重要角色。甚至成為像提供雲端服務的 AWS 或提供線上支付服務的 Stripe 等的基礎設施提供商。

到了 2018 年,他們正式改名為 Scale AI,這時 Lucy Guo 離開 Scale,展開她的新創業:Backend Capital。

Scale AI 的重心開始變成資料標記、註釋的平臺,幫助客戶把他們原始資料變成可以用在 AI 開發的高品質訓練資料。舉例來說,像通用汽車的 Cruise、Zoox、Nuro 等客戶會把所有原始資料(未標記的資料)提供給 Scale,讓 Scale 透過人力外包或是自家演算法的方式去標記道路、行人等。這些客戶拿到這些具有標記的資料後,他們可以再去訓練自駕車不去撞到行人等。

raw-image

為什麼資料標記在 AI /ML 重要 ?

在介紹 Scale 旗下產品以前,我們先來了解一直重複提到的關鍵字「資料標記」究竟是什麼?為什麼 Scale 產品都建立在資料標記的基礎上?

舉個我們多少都會碰到的例子:驗證碼。

無論是給你看一張圖正確輸入裡面的數字和英文字母,或是給你九張圖片要你選擇圖片中有車的照片,這過程就是一種資料標記。

簡單來說,電腦不知道圖片裡面的東西是什麼,在輸入驗證碼的資料標記過程,就是一種透過人力的方式,告訴電腦說圖片中有什麼物件。

以行動支持創作者!付費即可解鎖
本篇內容共 7421 字、0 則留言,僅發佈於VK科技閱讀時間你目前無法檢視以下內容,可能因為尚未登入,或沒有該房間的查看權限。
avatar-img
22.1K會員
68內容數
📢12/01 - 12/31 加入年方案享終身優惠價 $1,688 Hi,我是 VK~ 好奇科技發展、想看懂科技趨勢和新創的眉角。決定每週記錄下那些我感興趣、還看不懂的事。這裡會聊很多科技公司、新創,他們背後的人物與故事。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
VK科技閱讀時間 的其他內容
Hi 我是 VK~ 過去聊過幾次 Canva 的創業故事﹑商業策略等,前陣子在 Podcast 中也找了 Simon 聊聊。但講到設計領域的重要公司,還少了一重要拼圖:設計巨人 Adobe。 這期來聊聊 Adobe 的早期故事,以及他們如何度過營收低谷走到今日。主要會聚焦討論: Adobe 兩
Hi 我是 VK~ 始終覺得精進(Mastery)、偉大(Great)這些概念是個好的目標,但要如何理解或追求似乎又變得很抽象。 這問題在 Paul Graham 寫出〈How to Do Great Work〉後,讀了數次後,對偉大的概念還是有點模糊。這問題在寫到偉大的公司和人物時,時不時就會
Hi 我是 VK~ NVIDIA 執行長黃仁勳在今年 2 月《連線》雜誌採訪時透露,「我一直在用 Perplexity,不過也很喜歡 ChatGPT,我幾乎每天都會使用這兩款 AI 工具。」 這期來聊聊 AI 新創 Perplexity 他們的成立故事,並聚焦在: 為什麼 Perplexity
Hi 我是 VK~ 這期來聊聊 YouTube 上的「3C 評測之王」 MKBHD。他在早期是如何成為 YouTuber,到如今建立近 2000 萬訂戶的媒體事業? MKBHD 在十多年的創作生涯中,有什麼是他堅持的原則?他對觀眾的了解,如何幫助他打造科技產品評測的內容?Humane AI Pi
Hi 我是 VK~ 上月剛好是 Apple WWDC 大會,加上近來有許多 Apple 下任執行長接班人傳言的人選。這也是個蠻好的時機來回顧現任執行長庫克(Tim Cook)他接任蘋果執行長後有哪些創新成功與失敗的地方。 這期主要會聚焦在: 不是「產品人」出身的庫克,為什麼讓賈伯斯親自招募他加
Hi 我是 VK~ 這期,來聊聊 Rick Rubin 的書《創造力的修行:打開一切可能》,一位傳奇音樂製作人他的創作指南。曾是聯合公園、Adele 等人幕後推手的 Rubin 是誰? 這本書萃取了他在音樂產業內數十年的經驗,他對於創造、品味等主題的思考。這期會聚焦在談他的創作指南,可以如何帶給
Hi 我是 VK~ 過去聊過幾次 Canva 的創業故事﹑商業策略等,前陣子在 Podcast 中也找了 Simon 聊聊。但講到設計領域的重要公司,還少了一重要拼圖:設計巨人 Adobe。 這期來聊聊 Adobe 的早期故事,以及他們如何度過營收低谷走到今日。主要會聚焦討論: Adobe 兩
Hi 我是 VK~ 始終覺得精進(Mastery)、偉大(Great)這些概念是個好的目標,但要如何理解或追求似乎又變得很抽象。 這問題在 Paul Graham 寫出〈How to Do Great Work〉後,讀了數次後,對偉大的概念還是有點模糊。這問題在寫到偉大的公司和人物時,時不時就會
Hi 我是 VK~ NVIDIA 執行長黃仁勳在今年 2 月《連線》雜誌採訪時透露,「我一直在用 Perplexity,不過也很喜歡 ChatGPT,我幾乎每天都會使用這兩款 AI 工具。」 這期來聊聊 AI 新創 Perplexity 他們的成立故事,並聚焦在: 為什麼 Perplexity
Hi 我是 VK~ 這期來聊聊 YouTube 上的「3C 評測之王」 MKBHD。他在早期是如何成為 YouTuber,到如今建立近 2000 萬訂戶的媒體事業? MKBHD 在十多年的創作生涯中,有什麼是他堅持的原則?他對觀眾的了解,如何幫助他打造科技產品評測的內容?Humane AI Pi
Hi 我是 VK~ 上月剛好是 Apple WWDC 大會,加上近來有許多 Apple 下任執行長接班人傳言的人選。這也是個蠻好的時機來回顧現任執行長庫克(Tim Cook)他接任蘋果執行長後有哪些創新成功與失敗的地方。 這期主要會聚焦在: 不是「產品人」出身的庫克,為什麼讓賈伯斯親自招募他加
Hi 我是 VK~ 這期,來聊聊 Rick Rubin 的書《創造力的修行:打開一切可能》,一位傳奇音樂製作人他的創作指南。曾是聯合公園、Adele 等人幕後推手的 Rubin 是誰? 這本書萃取了他在音樂產業內數十年的經驗,他對於創造、品味等主題的思考。這期會聚焦在談他的創作指南,可以如何帶給
你可能也想看
Google News 追蹤
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
機器學習領域的專業人士可以從這篇文章中獲得寶貴的見解。 追求更大的數據集和更強大的模型一直是提升性能的核心策略。 以下是我在機器學習領域工作7年後的三個重大體悟。 ▋體悟1 - 大數據的重要性 自2009年ImageNet問世以來, 數據集的規模和質量對機器學習的影響越
Thumbnail
在這個網上共享信息時代,大數據已成為推動許多行業創新的核心力量。從提升客戶體驗到優化運營效率,大數據的應用範圍日益擴大。然而,隨著技術的快速發展,實施大數據項目也帶來了不少挑戰。本文將探討大數據技術的最新趨勢,分析其在不同行業中的實際應用,並討論實施過程中的主要挑戰。
Thumbnail
最新的AI趨勢讓人眼花撩亂,不知要如何開始學習?本文介紹了作者對AI的使用和體驗,以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具,可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心,不停止學習,並提出了對健康生活和開心生活的祝福。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
機器學習領域的專業人士可以從這篇文章中獲得寶貴的見解。 追求更大的數據集和更強大的模型一直是提升性能的核心策略。 以下是我在機器學習領域工作7年後的三個重大體悟。 ▋體悟1 - 大數據的重要性 自2009年ImageNet問世以來, 數據集的規模和質量對機器學習的影響越
Thumbnail
在這個網上共享信息時代,大數據已成為推動許多行業創新的核心力量。從提升客戶體驗到優化運營效率,大數據的應用範圍日益擴大。然而,隨著技術的快速發展,實施大數據項目也帶來了不少挑戰。本文將探討大數據技術的最新趨勢,分析其在不同行業中的實際應用,並討論實施過程中的主要挑戰。
Thumbnail
最新的AI趨勢讓人眼花撩亂,不知要如何開始學習?本文介紹了作者對AI的使用和體驗,以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具,可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心,不停止學習,並提出了對健康生活和開心生活的祝福。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。