AI Booster - Scale AI (1)

更新於 2023/08/18閱讀時間約 3 分鐘

Better Data. Better AI. Faster AI.

raw-image

這系列文章是透過蒐集、分享我覺得有意思AI服務、相關文章、影片,期許自己能更了解這世界上正在發生什麼。




Scale AI 是一家2016年成立的科技公司,其願景是加速人工智慧和機器學習於各大產業的應用。在導入機器學習的過程當中,監督式學習 (Supervised Learning) 由於是使用標住過的資料來進行資料訓練,相比於非監督式學習(Unsupervised Learning),監督式學習的正確性更高,通常應用範圍較深也較廣,在業界也比較被廣泛應用。在監督學習技法跟著機器學習和人工智慧的熱潮不對推陳出新,新的方法論和模型日新月異。然而,漸漸的人們也開始將更多的注意力集中在輸入資料本身的質量好壞,其中一個重點就是資料標註(Data Labeling)的品質。

資料標註的品質分為幾個面向。正確性通常是人們最在意的事情,因為沒有正確的標註無疑就是會造成所謂的”Garbage in Garbage Out”。直覺上我們會認為人工標註的正確性較高,然而人工標註常受限於人們的主觀意識、知識量(e.g. 辨別烏鴉vs椋鳥)、人體的極限(比如聽不到的頻率、跟不上的速度)等因素表現不如機器。此外人工標註的品質、標準的可持續性也是其中一項挑戰。

資料量是另一個會影響品質的因子,資料量的爆炸導致無法像過去全然仰賴傳統人工標註,資料量的增加也意謂著資料缺失(Missing)的比例增加,進一步造成可訓練的資料不足,影響訓練品質。這裡所提到的資料缺失並非傳統上所討論的因為蒐集資料的量能不足或缺乏蒐集資料的意識導致原始資料(Raw data)沒有被紀錄,而是對於後續資料判斷、解析的量能不足。

Scale AI提到,將資料標註的工作交給所謂的標註員(Annotators)當然是一種做法。然而隨之而來會面臨以下挑戰。首先,在市場上要找到合適的標註員,不僅要考慮人力成本、使用的語言、所在的地區、專業的素養達到並維持資料標註的品質,還要考慮人力的管理、流動等,這也是很多資料學習組織會將這些工作外包給第三方公司的理由。有了標註員以後,需要花費大量時間建立完善的訓練制度、監控SOP等流程。如果標註員的數量眾多,還需要了解其中標註能力和結果的變異性,某些標註員為什麼品質比較低落? 同一個標註員這幾天為什麼效率比之前差? Scale AI也提到了需要建立黃金資料集(Golden dataset)來當作管理的準則和極端範例(Edge case)的處理。


要達到加速人工智慧和機器學習於各大產業的應用的願景,Scale AI 希望能將資料標註這項工作透過其開發的工具,大批量且正確地完成,幫助客戶不僅能節省人力、時間成本,模型的正確性得到提升,最重要的是,資料標註的普及和加速會是提升機器學習市場滲透的關鍵因子。下一篇我們會來深挖Scale AI的幾個產品和產業應用。

Thank you!


Informula 致力於提升工作生產力,分享生產力工具使用情境、簡單的程式、資料處理、數據分析、網路爬蟲應用等。 尋求長期的自我成長要求或職場臨時急救包的朋友歡迎一起交流。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
你可能也想看
Google News 追蹤
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
受惠於ChatGPT帶來的AI浪潮,科技巨頭亟欲開發自有的AI模型及資料中心,對於高階晶片的需求快速上升 本系列會解析相關的半導體產業首先介紹晶片生產的產業鍊,以下會依三部份進行介紹:上游【IC設計】、中游【IC製造】、下游【IC封測】
Thumbnail
你好,我是cazzyjason,最近的AI如井噴式爆發,每個人都被AI轟炸得焦頭爛額的,手機一打開全都是哪家又出了新的AI、這個AI的又推出新功能,原本我還沾沾自喜的覺得我應該是對於Stable diffusion的新資訊跟得比較緊的,但發現因為轉頭研究ChatGPT的這兩三天,我對Stable d
Thumbnail
感謝AI和線上免費軟體的幫忙,讓我完成了第一本英文繪本童書並且在Amazon上架。這篇文章要手把手地把我的經驗分享給大家,讓大家一起加入創作者的行列。 這篇介紹了我使用的線上AI軟體以及需要使用到的網站,準備工作做好就可以開始創作囉!
Thumbnail
這次介紹五款所有畫風都通吃的萬用AI繪圖APP,寫實風,CG風,動漫風都可以一次解決。 避免文長影響閱讀體驗,拆成兩篇發行,第一集介紹前三款,第二集介紹後二款。
Thumbnail
這篇文章將會探討「使用單字和句子對生成圖片的影響」。並且介紹官方建議的敘事方式。
Thumbnail
我使用 ChatGPT 已經超過 1 個月了,極度關注 ChatGPT 的相關新聞。我發現網路與報章雜誌上都開始報導 ChatGPT 這款工具,但多數人還是不瞭解這款工具可以如何幫助我們。如果不了解 ChatGPT 的細節,我們就只能「聽說」這款工具很厲害,但卻無法為己所用。這篇文章分享 3 個快速
Thumbnail
這份難以言喻的成就感是催生這篇文章的主要原因,我想分享在專案規劃與數據分析技術上的經驗,並拆成為三個階段,分別為專案規劃、專案執行與成效評估,執行階段會著墨於程式設計面的分享。 專案規劃階段 定義問題 擬定行動方案
Thumbnail
人工智慧所造就的機器人技術領域,最大成果是從原先的自動化邁向了真正的自主學習。本文將嘗試揭開人工智慧應用的神秘面紗,協助讀者瞭解AI機器人將如何影響我們的未來,並釐清我們常常聽到,但卻著墨不多、甚至根本尚未全然理解的主題。
(圖片出處:The Edition Truth )Artificial Intelligence Market 麥肯錫全球研究院(MGI)的一份報告裡寫著:「至2030年,全球將有8億人的工作
Thumbnail
這篇文章嘗試從一般使用者的角度,去描述臉書讓我們遇到了什麼問題,而這個問題又怎麼跟 AI 演算法扯上關係。 文章前半《使用者逐漸失去自主權的臉書》將會描述「這件事情是如何發生?」,後半《當 AI 演算法逐漸變成問題》則是說明「為什麼這件事情可怕?」
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
受惠於ChatGPT帶來的AI浪潮,科技巨頭亟欲開發自有的AI模型及資料中心,對於高階晶片的需求快速上升 本系列會解析相關的半導體產業首先介紹晶片生產的產業鍊,以下會依三部份進行介紹:上游【IC設計】、中游【IC製造】、下游【IC封測】
Thumbnail
你好,我是cazzyjason,最近的AI如井噴式爆發,每個人都被AI轟炸得焦頭爛額的,手機一打開全都是哪家又出了新的AI、這個AI的又推出新功能,原本我還沾沾自喜的覺得我應該是對於Stable diffusion的新資訊跟得比較緊的,但發現因為轉頭研究ChatGPT的這兩三天,我對Stable d
Thumbnail
感謝AI和線上免費軟體的幫忙,讓我完成了第一本英文繪本童書並且在Amazon上架。這篇文章要手把手地把我的經驗分享給大家,讓大家一起加入創作者的行列。 這篇介紹了我使用的線上AI軟體以及需要使用到的網站,準備工作做好就可以開始創作囉!
Thumbnail
這次介紹五款所有畫風都通吃的萬用AI繪圖APP,寫實風,CG風,動漫風都可以一次解決。 避免文長影響閱讀體驗,拆成兩篇發行,第一集介紹前三款,第二集介紹後二款。
Thumbnail
這篇文章將會探討「使用單字和句子對生成圖片的影響」。並且介紹官方建議的敘事方式。
Thumbnail
我使用 ChatGPT 已經超過 1 個月了,極度關注 ChatGPT 的相關新聞。我發現網路與報章雜誌上都開始報導 ChatGPT 這款工具,但多數人還是不瞭解這款工具可以如何幫助我們。如果不了解 ChatGPT 的細節,我們就只能「聽說」這款工具很厲害,但卻無法為己所用。這篇文章分享 3 個快速
Thumbnail
這份難以言喻的成就感是催生這篇文章的主要原因,我想分享在專案規劃與數據分析技術上的經驗,並拆成為三個階段,分別為專案規劃、專案執行與成效評估,執行階段會著墨於程式設計面的分享。 專案規劃階段 定義問題 擬定行動方案
Thumbnail
人工智慧所造就的機器人技術領域,最大成果是從原先的自動化邁向了真正的自主學習。本文將嘗試揭開人工智慧應用的神秘面紗,協助讀者瞭解AI機器人將如何影響我們的未來,並釐清我們常常聽到,但卻著墨不多、甚至根本尚未全然理解的主題。
(圖片出處:The Edition Truth )Artificial Intelligence Market 麥肯錫全球研究院(MGI)的一份報告裡寫著:「至2030年,全球將有8億人的工作
Thumbnail
這篇文章嘗試從一般使用者的角度,去描述臉書讓我們遇到了什麼問題,而這個問題又怎麼跟 AI 演算法扯上關係。 文章前半《使用者逐漸失去自主權的臉書》將會描述「這件事情是如何發生?」,後半《當 AI 演算法逐漸變成問題》則是說明「為什麼這件事情可怕?」