AI Booster - Scale AI (1)

更新 發佈閱讀 3 分鐘

Better Data. Better AI. Faster AI.

raw-image

這系列文章是透過蒐集、分享我覺得有意思AI服務、相關文章、影片,期許自己能更了解這世界上正在發生什麼。




Scale AI 是一家2016年成立的科技公司,其願景是加速人工智慧和機器學習於各大產業的應用。在導入機器學習的過程當中,監督式學習 (Supervised Learning) 由於是使用標住過的資料來進行資料訓練,相比於非監督式學習(Unsupervised Learning),監督式學習的正確性更高,通常應用範圍較深也較廣,在業界也比較被廣泛應用。在監督學習技法跟著機器學習和人工智慧的熱潮不對推陳出新,新的方法論和模型日新月異。然而,漸漸的人們也開始將更多的注意力集中在輸入資料本身的質量好壞,其中一個重點就是資料標註(Data Labeling)的品質。

資料標註的品質分為幾個面向。正確性通常是人們最在意的事情,因為沒有正確的標註無疑就是會造成所謂的”Garbage in Garbage Out”。直覺上我們會認為人工標註的正確性較高,然而人工標註常受限於人們的主觀意識、知識量(e.g. 辨別烏鴉vs椋鳥)、人體的極限(比如聽不到的頻率、跟不上的速度)等因素表現不如機器。此外人工標註的品質、標準的可持續性也是其中一項挑戰。

資料量是另一個會影響品質的因子,資料量的爆炸導致無法像過去全然仰賴傳統人工標註,資料量的增加也意謂著資料缺失(Missing)的比例增加,進一步造成可訓練的資料不足,影響訓練品質。這裡所提到的資料缺失並非傳統上所討論的因為蒐集資料的量能不足或缺乏蒐集資料的意識導致原始資料(Raw data)沒有被紀錄,而是對於後續資料判斷、解析的量能不足。

Scale AI提到,將資料標註的工作交給所謂的標註員(Annotators)當然是一種做法。然而隨之而來會面臨以下挑戰。首先,在市場上要找到合適的標註員,不僅要考慮人力成本、使用的語言、所在的地區、專業的素養達到並維持資料標註的品質,還要考慮人力的管理、流動等,這也是很多資料學習組織會將這些工作外包給第三方公司的理由。有了標註員以後,需要花費大量時間建立完善的訓練制度、監控SOP等流程。如果標註員的數量眾多,還需要了解其中標註能力和結果的變異性,某些標註員為什麼品質比較低落? 同一個標註員這幾天為什麼效率比之前差? Scale AI也提到了需要建立黃金資料集(Golden dataset)來當作管理的準則和極端範例(Edge case)的處理。


要達到加速人工智慧和機器學習於各大產業的應用的願景,Scale AI 希望能將資料標註這項工作透過其開發的工具,大批量且正確地完成,幫助客戶不僅能節省人力、時間成本,模型的正確性得到提升,最重要的是,資料標註的普及和加速會是提升機器學習市場滲透的關鍵因子。下一篇我們會來深挖Scale AI的幾個產品和產業應用。

Thank you!


留言
avatar-img
Informula 生產力工坊
8會員
23內容數
Informula 致力於提升工作生產力,分享生產力工具使用情境、簡單的程式、資料處理、數據分析、網路爬蟲應用等。 尋求長期的自我成長要求或職場臨時急救包的朋友歡迎一起交流。
2024/07/30
ARK於6/12發布其對Tesla未來價值的更新,ARK預計在2029年特斯拉每股價值將達到2600美元。
Thumbnail
2024/07/30
ARK於6/12發布其對Tesla未來價值的更新,ARK預計在2029年特斯拉每股價值將達到2600美元。
Thumbnail
2023/10/12
The sophisticated platform for text annotation. Human-powered audio transcription and categorization to power home agents and other voice-controlled
Thumbnail
2023/10/12
The sophisticated platform for text annotation. Human-powered audio transcription and categorization to power home agents and other voice-controlled
Thumbnail
2023/10/10
The flexible solution to develop and scale your own custom maps. Build machine learning models from zero to production in hours, without ML expertise
Thumbnail
2023/10/10
The flexible solution to develop and scale your own custom maps. Build machine learning models from zero to production in hours, without ML expertise
Thumbnail
看更多
你可能也想看
Thumbnail
創作不只是個人戰,在 vocus ,也可以是一場集體冒險、組隊升級。最具代表性的創作者社群「vocus 野格團」,現在有了更強大的新夥伴加入!除了大家熟悉的「官方主題沙龍」,這次我們徵召了 8 位領域各異的「個人主題專家」,將再度嘗試創作的各種可能,和格友們激發出更多未知的火花。
Thumbnail
創作不只是個人戰,在 vocus ,也可以是一場集體冒險、組隊升級。最具代表性的創作者社群「vocus 野格團」,現在有了更強大的新夥伴加入!除了大家熟悉的「官方主題沙龍」,這次我們徵召了 8 位領域各異的「個人主題專家」,將再度嘗試創作的各種可能,和格友們激發出更多未知的火花。
Thumbnail
vocus 最具指標性的創作者社群──「野格團」, 2026 年春季,這支充滿專業、熱情的團隊再次擴編,迎來了 8 位實力堅強的「個人主題專家」新成員 💫💫💫 從投資理財、自我成長、閱讀書評到電影戲劇,他們各自帶著獨特的「創作超能力」準備在格友大廳與大家見面。
Thumbnail
vocus 最具指標性的創作者社群──「野格團」, 2026 年春季,這支充滿專業、熱情的團隊再次擴編,迎來了 8 位實力堅強的「個人主題專家」新成員 💫💫💫 從投資理財、自我成長、閱讀書評到電影戲劇,他們各自帶著獨特的「創作超能力」準備在格友大廳與大家見面。
Thumbnail
Hi 我是 VK~ 很常會看到 Scale AI 的消息,粗淺知道他們是在做資料標記(Data Labeling,或稱數據標記)。近來也有討論說資料會先用完,還是算力。剛好趁著這個機會深入了解 Scale AI 在做些什麼,他們如何解決資料標記的問題,以及在這領域中還有哪些玩家。 這期來聊聊 S
Thumbnail
Hi 我是 VK~ 很常會看到 Scale AI 的消息,粗淺知道他們是在做資料標記(Data Labeling,或稱數據標記)。近來也有討論說資料會先用完,還是算力。剛好趁著這個機會深入了解 Scale AI 在做些什麼,他們如何解決資料標記的問題,以及在這領域中還有哪些玩家。 這期來聊聊 S
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
在機器學習領域中,監督學習、無監督學習和強化學習是三種核心方法,它們在解決不同類型的問題時發揮著重要作用。
Thumbnail
在機器學習領域中,監督學習、無監督學習和強化學習是三種核心方法,它們在解決不同類型的問題時發揮著重要作用。
Thumbnail
近年來,生成式AI對市場帶來了巨大變革,然而,企業的AI專案卻面臨許多部署和失敗的問題。從MIT Sloan Management Review的研究中,我們發現數據科學家在尋找防止AI模型失敗的模式上面存在許多問題。本文提供了三個觀點,協助缺乏技術的高階主管針對辨識有效的AI模型和數據集提出方法。
Thumbnail
近年來,生成式AI對市場帶來了巨大變革,然而,企業的AI專案卻面臨許多部署和失敗的問題。從MIT Sloan Management Review的研究中,我們發現數據科學家在尋找防止AI模型失敗的模式上面存在許多問題。本文提供了三個觀點,協助缺乏技術的高階主管針對辨識有效的AI模型和數據集提出方法。
Thumbnail
Better Data. Better AI. Faster AI. Scale AI 是一家2016年成立的科技公司,其願景是加速人工智慧和機器學習於各大產業的應用。在導入機器學習
Thumbnail
Better Data. Better AI. Faster AI. Scale AI 是一家2016年成立的科技公司,其願景是加速人工智慧和機器學習於各大產業的應用。在導入機器學習
Thumbnail
本文探討大資料對模型的影響。研究指出,大資料量對模型的語法和世界知識理解有顯著影響。固定運算資源下,DeepMind發現適應參數數量更重要,這使模型Chinchilla以較小規模但更多訓練資料,在實際任務中優於Gopher模型。這說明增大模型的規模已不具有太大意義,應增加訓練資料。
Thumbnail
本文探討大資料對模型的影響。研究指出,大資料量對模型的語法和世界知識理解有顯著影響。固定運算資源下,DeepMind發現適應參數數量更重要,這使模型Chinchilla以較小規模但更多訓練資料,在實際任務中優於Gopher模型。這說明增大模型的規模已不具有太大意義,應增加訓練資料。
Thumbnail
正文1,724字,主要跟你分享未來 AI 變更強更效率的兩個層面──數據與模型框架。你會從實務者的觀點,知道數據跟 AI (或機器學習模型) 表現間的關係;了解 ChatGPT 為什麼有運算資源的困擾;同時,你也會看到目前最新改善 AI 運算速度的技術發表。
Thumbnail
正文1,724字,主要跟你分享未來 AI 變更強更效率的兩個層面──數據與模型框架。你會從實務者的觀點,知道數據跟 AI (或機器學習模型) 表現間的關係;了解 ChatGPT 為什麼有運算資源的困擾;同時,你也會看到目前最新改善 AI 運算速度的技術發表。
Thumbnail
在這人人朗朗上口人工智慧(AI)與機器學習(Machine Learning/ML)的時代,究竟什麼才是讓企業突破重圍正確使用數據,並領先同行?先讓我們來好好釐清這兩者的關係: 人工智慧與機器學習的差異? 許多人時常把人工智慧與機器學習這兩個詞交換使用,不過在大數據的世界裡,AI有著更廣的意義。
Thumbnail
在這人人朗朗上口人工智慧(AI)與機器學習(Machine Learning/ML)的時代,究竟什麼才是讓企業突破重圍正確使用數據,並領先同行?先讓我們來好好釐清這兩者的關係: 人工智慧與機器學習的差異? 許多人時常把人工智慧與機器學習這兩個詞交換使用,不過在大數據的世界裡,AI有著更廣的意義。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News