Google research提出一套新的主動式資料篩選與專家標註流程:以更少資源訓練更強大的 AI

更新 發佈閱讀 6 分鐘

這個流程並非由單一人物或機構「首次」提出,而是在機器學習領域中,由「主動式學習」(Active Learning)這個概念逐步演變、並與「專家標註」實務結合的成果。

然而,近期將此流程大規模應用並提出一套具體、可擴展方法的,是 Google Ads 團隊。

根據 Google Research 在 2025 年 8 月 7 日發布的文章,由工程經理 Markus Krause 與研究科學家 Nancy Chang 所領導的團隊,詳細描述了一套新的主動式學習資料篩選流程。他們成功地將這套方法應用在廣告安全領域,處理數千億筆的龐大資料,在確保甚至提升模型品質的同時,將微調大型語言模型(LLM)所需的訓練資料量,大幅降低了 10,000 倍。

總結來說:

* 概念演變: 「主動式資料篩選與專家標註」的概念是機器學習領域長期發展的結果,結合了主動式學習理論與高品質資料標註的實務需求。

* 具體流程提出者: 將此概念發展成一套大規模、可行的具體流程,並公開其顯著成果的,是 Google Ads 團隊。他們的貢獻在於證明了這套方法在真實世界、超大規模應用中的可行性與巨大效益。

在人工智慧(AI)與機器學習的領域中,高品質的標註資料是訓練出強大模型的基石。然而,資料標註往往是個耗時且成本高昂的過程,尤其當需要特定領域的專業知識時。為了解決此問題,「主動式資料篩選」(Active Learning)與「專家標註」(Expert Annotation)相結合的流程應運而生,旨在以更有效率的方式,篩選出對模型訓練最有價值的資料,並交由領域專家進行精準標註,從而以更少的標註成本,達到甚至超越傳統方法的模型效能。

核心概念:讓模型主動學習,讓專家發揮最大價值

這個流程的核心思想是將「被動」的資料標註轉變為「主動」的學習過程。傳統上,我們會將所有收集到的資料全部進行標註,但其中可能包含了大量對模型學習幫助不大的冗餘或重複資訊。「主動式資料篩選與專家標註流程」則打破了這個模式,其運作方式如下:

1. 主動式資料篩選 (Active Learning):

主動式學習是一種機器學習方法,其核心精神在於讓模型本身具備「提問」的能力。在訓練過程中,模型會主動從大量未標註的資料中,識別出那些它最「不確定」或認為最「有價值」的資料點,並請求人類(在此流程中即為專家)給予標註。

這種「不確定性」的判斷標準有多種策略,常見的包括:

* 不確定性抽樣 (Uncertainty Sampling): 模型挑選出最難以分類或預測的資料。例如,模型對於某張圖片是貓還是狗的判斷機率皆在 50% 左右。

* 委員會查詢 (Query-by-Committee): 透過多個不同的模型對同一筆資料進行預測,並挑選出模型間預測結果分歧最大的資料。

* 預期模型改變量 (Expected Model Change): 挑選那些一旦被標註,預期將對模型參數產生最大影響的資料。

透過主動式學習,我們可以將有限的標註資源集中在刀口上,避免浪費在那些模型已經很有把握的資料上。

2. 專家標註 (Expert Annotation):

專家標註指的是由具備特定領域知識的專業人士來執行資料標註的過程。在許多專業領域,例如醫療影像判讀、法律文件分析、金融詐欺偵測等,非專業人士的標註不僅可能出錯,甚至會誤導模型的學習方向,導致模型產生偏誤或做出錯誤的判斷。

專家標註雖然成本較高,但其提供的黃金標準(Gold Standard)標註,對於訓練出高準確度、高可靠性的 AI 模型至關重要。

主動式資料篩選與專家標註的整合流程

結合這兩者的流程,通常會以一個迭代循環的方式進行,具體步驟如下:

* 1、初始模型建立: 首先,使用一小部分隨機抽樣且已經由專家標註好的資料,訓練一個初始的 AI 模型。這個模型的效能可能還不夠好,但它將作為後續主動學習的基礎。

* 2、主動式資料篩選: 接著,利用這個初始模型對龐大的未標註資料庫進行預測。根據預設的查詢策略(如前述的不確定性抽樣等),模型會篩選出一批它認為最需要被標註的「高價值」資料。

* 3、專家標註: 系統將這些被篩選出的資料提交給領域專家。專家會運用其專業知識,為這些資料提供最準確的標籤。

* 4、模型更新與迭代: 將專家標註好的新資料加入原有的訓練集中,用以重新訓練並更新 AI 模型。經過這次的學習,模型的效能將會有所提升。

* 循環重複: 不斷重複步驟 2 到 4,模型將會越來越「聰明」,每一次都能更精準地挑選出對其學習最有幫助的資料。這個循環會持續進行,直到模型的效能達到預設的目標,或者標註的預算用盡為止。

結語:智慧化的資料策略,驅動 AI 發展

主動式資料篩選與專家標註流程,是一種更為智慧化、更具成本效益的資料標註策略。它不僅大幅降低了訓練高品質 AI 模型所需的資料標註量,更確保了每一筆標註資料的價值都能被最大化。在資料量龐大且專業知識密集的今天,這種方法無疑為 AI 技術的持續發展與應用落地,提供了一條更有效率的康莊大道。


留言
avatar-img
留言分享你的想法!
avatar-img
Hank吳的沙龍
0會員
83內容數
這不僅僅是一個 Blog,更是一個交流與分享的空間。 期待在這裡與你相遇,一起探索科技、體驗生活、夢想旅行!💖
Hank吳的沙龍的其他內容
2025/08/11
近期(2025年8月初以來)娛樂圈最受關注的事件之一。這標誌著她與經紀公司的矛盾已經從幕後走向檯面,完全公開化。 她之所以選擇用「直播」這種極端且直接的方式,可以從以下幾個心理和策略層面來理解,也呼應了「困局」與「憂鬱症」心理層面
2025/08/11
近期(2025年8月初以來)娛樂圈最受關注的事件之一。這標誌著她與經紀公司的矛盾已經從幕後走向檯面,完全公開化。 她之所以選擇用「直播」這種極端且直接的方式,可以從以下幾個心理和策略層面來理解,也呼應了「困局」與「憂鬱症」心理層面
2025/08/10
在當今這個由大型語言模型(LLM)引領的 AI 新時代,我們驚嘆於它們生成文本、翻譯語言、甚至編寫程式碼的強大能力。然而,一個顯而易見的瓶頸也隨之浮現:這些模型本身如同一個知識淵博但與世隔絕的大腦,它們的知識被凍結在訓練數據的特定時間點,並且缺乏與即時資訊和外部工具互動的能力。
2025/08/10
在當今這個由大型語言模型(LLM)引領的 AI 新時代,我們驚嘆於它們生成文本、翻譯語言、甚至編寫程式碼的強大能力。然而,一個顯而易見的瓶頸也隨之浮現:這些模型本身如同一個知識淵博但與世隔絕的大腦,它們的知識被凍結在訓練數據的特定時間點,並且缺乏與即時資訊和外部工具互動的能力。
2025/08/09
準備好迎接 AI 界的下一波巨浪了嗎,沒錯,萬眾矚目的 GPT-5 已經帶著它的超強能力和一本熱騰騰的**《GPT-5 提示指南》**來到我們面前,這可不是什麼枯燥乏味的使用手冊,而是一本能讓你手上的 GPT-5 從「聰明」變「絕頂聰明」的武功秘笈。
2025/08/09
準備好迎接 AI 界的下一波巨浪了嗎,沒錯,萬眾矚目的 GPT-5 已經帶著它的超強能力和一本熱騰騰的**《GPT-5 提示指南》**來到我們面前,這可不是什麼枯燥乏味的使用手冊,而是一本能讓你手上的 GPT-5 從「聰明」變「絕頂聰明」的武功秘笈。
看更多
你可能也想看
Thumbnail
蝦皮分潤計畫讓我在分享旅遊文章時,也能透過推薦好物累積被動收入,貼補旅行基金。這篇文章,除了介紹計畫的操作亮點與心得,也分享我最常應用的案例:「旅行必備小物 TOP5」,包含行李鎖、免洗內衣褲、分裝瓶、折疊衣架與真空壓縮袋,幫助出國打包更輕鬆。想同時記錄旅行、分享好物又創造額外收入的你,千萬別錯過!
Thumbnail
蝦皮分潤計畫讓我在分享旅遊文章時,也能透過推薦好物累積被動收入,貼補旅行基金。這篇文章,除了介紹計畫的操作亮點與心得,也分享我最常應用的案例:「旅行必備小物 TOP5」,包含行李鎖、免洗內衣褲、分裝瓶、折疊衣架與真空壓縮袋,幫助出國打包更輕鬆。想同時記錄旅行、分享好物又創造額外收入的你,千萬別錯過!
Thumbnail
想增加被動收入?加入蝦皮分潤計畫是輕鬆上手的好方法!本文提供完整教學,包含申請流程、賺取分潤技巧,以及實際使用心得分享,助你輕鬆獲得額外收入。
Thumbnail
想增加被動收入?加入蝦皮分潤計畫是輕鬆上手的好方法!本文提供完整教學,包含申請流程、賺取分潤技巧,以及實際使用心得分享,助你輕鬆獲得額外收入。
Thumbnail
SearchGPT 是由 OpenAI 開發的 AI 驅動搜尋引擎,結合了傳統搜尋引擎技術和最新的 AI 技術,能即時從互聯網獲取資訊。它與其他搜尋引擎相比,提供更相關的搜尋結果、更豐富的結果呈現、更快的速度和更好的生態合作基礎建設。
Thumbnail
SearchGPT 是由 OpenAI 開發的 AI 驅動搜尋引擎,結合了傳統搜尋引擎技術和最新的 AI 技術,能即時從互聯網獲取資訊。它與其他搜尋引擎相比,提供更相關的搜尋結果、更豐富的結果呈現、更快的速度和更好的生態合作基礎建設。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
2023年是AI元年,其實AI還分成不同類別,不過對我們工作和教育影響最大的AI類型是生成式AI,就像各位 Google 在2023年第四季推出了一系列共7堂「生成式 AI」課程,免費喔! 這7堂 Google 免費課程包括: • Introduction to Generative AI
Thumbnail
2023年是AI元年,其實AI還分成不同類別,不過對我們工作和教育影響最大的AI類型是生成式AI,就像各位 Google 在2023年第四季推出了一系列共7堂「生成式 AI」課程,免費喔! 這7堂 Google 免費課程包括: • Introduction to Generative AI
Thumbnail
你對 AI 的認識有多少?你在生活或工作上有運用哪些 AI 的應用服務嗎?一起來了解這個目前很夯的議題。 根據 google 對 AI(artificial intelligence,縮寫為AI)的解釋:AI 是人工智慧,定義是打造電腦與機器的科學領域,可以進行推論、學習以及採取行動。這些過往需要
Thumbnail
你對 AI 的認識有多少?你在生活或工作上有運用哪些 AI 的應用服務嗎?一起來了解這個目前很夯的議題。 根據 google 對 AI(artificial intelligence,縮寫為AI)的解釋:AI 是人工智慧,定義是打造電腦與機器的科學領域,可以進行推論、學習以及採取行動。這些過往需要
Thumbnail
在數位化的世界中,用戶介面和信息圖表等視覺元素扮演著越來越重要的角色,而ScreenAI的開發為自然語言處理和計算機視覺的融合開啟了新的可能性。
Thumbnail
在數位化的世界中,用戶介面和信息圖表等視覺元素扮演著越來越重要的角色,而ScreenAI的開發為自然語言處理和計算機視覺的融合開啟了新的可能性。
Thumbnail
AI 是人工智能 (Artificial Intelligence) 的縮寫。它指一種模擬、模仿人類智能的技術與系統。主要使機器能夠執行需要人類智慧才能完成的任務。應用於各領域,包括自動駕駛車輛、語音助手、推薦系統、金融分析、醫學診斷、工業自動化等。不僅可提高效率和準確性,還可解決複雜的問題和挑戰。
Thumbnail
AI 是人工智能 (Artificial Intelligence) 的縮寫。它指一種模擬、模仿人類智能的技術與系統。主要使機器能夠執行需要人類智慧才能完成的任務。應用於各領域,包括自動駕駛車輛、語音助手、推薦系統、金融分析、醫學診斷、工業自動化等。不僅可提高效率和準確性,還可解決複雜的問題和挑戰。
Thumbnail
2023年被世人稱做生成式AI世代的元年,各式各樣的AI工具不斷湧現,改變了人們的生活。本文將詳細介紹人工智慧和機器學習的相關知識,以及各種人工智慧和機器學習的實現方法。
Thumbnail
2023年被世人稱做生成式AI世代的元年,各式各樣的AI工具不斷湧現,改變了人們的生活。本文將詳細介紹人工智慧和機器學習的相關知識,以及各種人工智慧和機器學習的實現方法。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News