AI Booster - Scale AI (1)

更新於 發佈於 閱讀時間約 3 分鐘

Better Data. Better AI. Faster AI.

raw-image

這系列文章是透過蒐集、分享我覺得有意思AI服務、相關文章、影片,期許自己能更了解這世界上正在發生什麼。




Scale AI 是一家2016年成立的科技公司,其願景是加速人工智慧和機器學習於各大產業的應用。在導入機器學習的過程當中,監督式學習 (Supervised Learning) 由於是使用標住過的資料來進行資料訓練,相比於非監督式學習(Unsupervised Learning),監督式學習的正確性更高,通常應用範圍較深也較廣,在業界也比較被廣泛應用。在監督學習技法跟著機器學習和人工智慧的熱潮不對推陳出新,新的方法論和模型日新月異。然而,漸漸的人們也開始將更多的注意力集中在輸入資料本身的質量好壞,其中一個重點就是資料標註(Data Labeling)的品質。

資料標註的品質分為幾個面向。正確性通常是人們最在意的事情,因為沒有正確的標註無疑就是會造成所謂的”Garbage in Garbage Out”。直覺上我們會認為人工標註的正確性較高,然而人工標註常受限於人們的主觀意識、知識量(e.g. 辨別烏鴉vs椋鳥)、人體的極限(比如聽不到的頻率、跟不上的速度)等因素表現不如機器。此外人工標註的品質、標準的可持續性也是其中一項挑戰。

資料量是另一個會影響品質的因子,資料量的爆炸導致無法像過去全然仰賴傳統人工標註,資料量的增加也意謂著資料缺失(Missing)的比例增加,進一步造成可訓練的資料不足,影響訓練品質。這裡所提到的資料缺失並非傳統上所討論的因為蒐集資料的量能不足或缺乏蒐集資料的意識導致原始資料(Raw data)沒有被紀錄,而是對於後續資料判斷、解析的量能不足。

Scale AI提到,將資料標註的工作交給所謂的標註員(Annotators)當然是一種做法。然而隨之而來會面臨以下挑戰。首先,在市場上要找到合適的標註員,不僅要考慮人力成本、使用的語言、所在的地區、專業的素養達到並維持資料標註的品質,還要考慮人力的管理、流動等,這也是很多資料學習組織會將這些工作外包給第三方公司的理由。有了標註員以後,需要花費大量時間建立完善的訓練制度、監控SOP等流程。如果標註員的數量眾多,還需要了解其中標註能力和結果的變異性,某些標註員為什麼品質比較低落? 同一個標註員這幾天為什麼效率比之前差? Scale AI也提到了需要建立黃金資料集(Golden dataset)來當作管理的準則和極端範例(Edge case)的處理。


要達到加速人工智慧和機器學習於各大產業的應用的願景,Scale AI 希望能將資料標註這項工作透過其開發的工具,大批量且正確地完成,幫助客戶不僅能節省人力、時間成本,模型的正確性得到提升,最重要的是,資料標註的普及和加速會是提升機器學習市場滲透的關鍵因子。下一篇我們會來深挖Scale AI的幾個產品和產業應用。

Thank you!


Informula 致力於提升工作生產力,分享生產力工具使用情境、簡單的程式、資料處理、數據分析、網路爬蟲應用等。 尋求長期的自我成長要求或職場臨時急救包的朋友歡迎一起交流。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
你可能也想看
Google News 追蹤
Thumbnail
大家好,我是woody,是一名料理創作者,非常努力地在嘗試將複雜的料理簡單化,讓大家也可以體驗到料理的樂趣而我也非常享受料理的過程,今天想跟大家聊聊,除了料理本身,料理創作背後的成本。
Thumbnail
哈囉~很久沒跟各位自我介紹一下了~ 大家好~我是爺恩 我是一名圖文插畫家,有追蹤我一段時間的應該有發現爺恩這個品牌經營了好像.....快五年了(汗)時間過得真快!隨著時間過去,創作這件事好像變得更忙碌了,也很開心跟很多厲害的創作者以及廠商互相合作幫忙,還有最重要的是大家的支持與陪伴🥹。  
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
Hi 我是 VK~ 很常會看到 Scale AI 的消息,粗淺知道他們是在做資料標記(Data Labeling,或稱數據標記)。近來也有討論說資料會先用完,還是算力。剛好趁著這個機會深入了解 Scale AI 在做些什麼,他們如何解決資料標記的問題,以及在這領域中還有哪些玩家。 這期來聊聊 S
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
隨著全球數位化浪潮的推進,企業正面臨著前所未有的挑戰和機遇。數位轉型已成為企業保持競爭力的關鍵策略。在這個過程中,平台即服務(PaaS)作為一種強大的雲端解決方案,正在扮演著不可或缺的角色。本文將探討PaaS在數位轉型中的重要作用,並說明其如何幫助企業實現數位化目標。 簡化開發與部署 Paa
Thumbnail
AI的世界充滿了創新和潛力,涵蓋了許多領域,包括但不限於機器學習,自然語言處理、電腦視覺和機器人技術。AI對人類社會的影響是複雜而多層面的,既帶來了巨大的機遇,也提出了新的挑戰。社會需要在技術發展和倫理規範之間找到平衡,確保AI技術的應用能夠真正造福人類。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
機器學習領域的專業人士可以從這篇文章中獲得寶貴的見解。 追求更大的數據集和更強大的模型一直是提升性能的核心策略。 以下是我在機器學習領域工作7年後的三個重大體悟。 ▋體悟1 - 大數據的重要性 自2009年ImageNet問世以來, 數據集的規模和質量對機器學習的影響越
Thumbnail
在機器學習領域中,監督學習、無監督學習和強化學習是三種核心方法,它們在解決不同類型的問題時發揮著重要作用。
Thumbnail
近年來,生成式AI對市場帶來了巨大變革,然而,企業的AI專案卻面臨許多部署和失敗的問題。從MIT Sloan Management Review的研究中,我們發現數據科學家在尋找防止AI模型失敗的模式上面存在許多問題。本文提供了三個觀點,協助缺乏技術的高階主管針對辨識有效的AI模型和數據集提出方法。
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
Thumbnail
大家好,我是woody,是一名料理創作者,非常努力地在嘗試將複雜的料理簡單化,讓大家也可以體驗到料理的樂趣而我也非常享受料理的過程,今天想跟大家聊聊,除了料理本身,料理創作背後的成本。
Thumbnail
哈囉~很久沒跟各位自我介紹一下了~ 大家好~我是爺恩 我是一名圖文插畫家,有追蹤我一段時間的應該有發現爺恩這個品牌經營了好像.....快五年了(汗)時間過得真快!隨著時間過去,創作這件事好像變得更忙碌了,也很開心跟很多厲害的創作者以及廠商互相合作幫忙,還有最重要的是大家的支持與陪伴🥹。  
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
Hi 我是 VK~ 很常會看到 Scale AI 的消息,粗淺知道他們是在做資料標記(Data Labeling,或稱數據標記)。近來也有討論說資料會先用完,還是算力。剛好趁著這個機會深入了解 Scale AI 在做些什麼,他們如何解決資料標記的問題,以及在這領域中還有哪些玩家。 這期來聊聊 S
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
隨著全球數位化浪潮的推進,企業正面臨著前所未有的挑戰和機遇。數位轉型已成為企業保持競爭力的關鍵策略。在這個過程中,平台即服務(PaaS)作為一種強大的雲端解決方案,正在扮演著不可或缺的角色。本文將探討PaaS在數位轉型中的重要作用,並說明其如何幫助企業實現數位化目標。 簡化開發與部署 Paa
Thumbnail
AI的世界充滿了創新和潛力,涵蓋了許多領域,包括但不限於機器學習,自然語言處理、電腦視覺和機器人技術。AI對人類社會的影響是複雜而多層面的,既帶來了巨大的機遇,也提出了新的挑戰。社會需要在技術發展和倫理規範之間找到平衡,確保AI技術的應用能夠真正造福人類。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
機器學習領域的專業人士可以從這篇文章中獲得寶貴的見解。 追求更大的數據集和更強大的模型一直是提升性能的核心策略。 以下是我在機器學習領域工作7年後的三個重大體悟。 ▋體悟1 - 大數據的重要性 自2009年ImageNet問世以來, 數據集的規模和質量對機器學習的影響越
Thumbnail
在機器學習領域中,監督學習、無監督學習和強化學習是三種核心方法,它們在解決不同類型的問題時發揮著重要作用。
Thumbnail
近年來,生成式AI對市場帶來了巨大變革,然而,企業的AI專案卻面臨許多部署和失敗的問題。從MIT Sloan Management Review的研究中,我們發現數據科學家在尋找防止AI模型失敗的模式上面存在許多問題。本文提供了三個觀點,協助缺乏技術的高階主管針對辨識有效的AI模型和數據集提出方法。
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別