這個流程並非由單一人物或機構「首次」提出,而是在機器學習領域中,由「主動式學習」(Active Learning)這個概念逐步演變、並與「專家標註」實務結合的成果。
然而,近期將此流程大規模應用並提出一套具體、可擴展方法的,是 Google Ads 團隊。
根據 Google Research 在 2025 年 8 月 7 日發布的文章,由工程經理 Markus Krause 與研究科學家 Nancy Chang 所領導的團隊,詳細描述了一套新的主動式學習資料篩選流程。他們成功地將這套方法應用在廣告安全領域,處理數千億筆的龐大資料,在確保甚至提升模型品質的同時,將微調大型語言模型(LLM)所需的訓練資料量,大幅降低了 10,000 倍。總結來說:
* 概念演變: 「主動式資料篩選與專家標註」的概念是機器學習領域長期發展的結果,結合了主動式學習理論與高品質資料標註的實務需求。
* 具體流程提出者: 將此概念發展成一套大規模、可行的具體流程,並公開其顯著成果的,是 Google Ads 團隊。他們的貢獻在於證明了這套方法在真實世界、超大規模應用中的可行性與巨大效益。
在人工智慧(AI)與機器學習的領域中,高品質的標註資料是訓練出強大模型的基石。然而,資料標註往往是個耗時且成本高昂的過程,尤其當需要特定領域的專業知識時。為了解決此問題,「主動式資料篩選」(Active Learning)與「專家標註」(Expert Annotation)相結合的流程應運而生,旨在以更有效率的方式,篩選出對模型訓練最有價值的資料,並交由領域專家進行精準標註,從而以更少的標註成本,達到甚至超越傳統方法的模型效能。
核心概念:讓模型主動學習,讓專家發揮最大價值
這個流程的核心思想是將「被動」的資料標註轉變為「主動」的學習過程。傳統上,我們會將所有收集到的資料全部進行標註,但其中可能包含了大量對模型學習幫助不大的冗餘或重複資訊。「主動式資料篩選與專家標註流程」則打破了這個模式,其運作方式如下:
1. 主動式資料篩選 (Active Learning):
主動式學習是一種機器學習方法,其核心精神在於讓模型本身具備「提問」的能力。在訓練過程中,模型會主動從大量未標註的資料中,識別出那些它最「不確定」或認為最「有價值」的資料點,並請求人類(在此流程中即為專家)給予標註。
這種「不確定性」的判斷標準有多種策略,常見的包括:
* 不確定性抽樣 (Uncertainty Sampling): 模型挑選出最難以分類或預測的資料。例如,模型對於某張圖片是貓還是狗的判斷機率皆在 50% 左右。
* 委員會查詢 (Query-by-Committee): 透過多個不同的模型對同一筆資料進行預測,並挑選出模型間預測結果分歧最大的資料。
* 預期模型改變量 (Expected Model Change): 挑選那些一旦被標註,預期將對模型參數產生最大影響的資料。
透過主動式學習,我們可以將有限的標註資源集中在刀口上,避免浪費在那些模型已經很有把握的資料上。
2. 專家標註 (Expert Annotation):
專家標註指的是由具備特定領域知識的專業人士來執行資料標註的過程。在許多專業領域,例如醫療影像判讀、法律文件分析、金融詐欺偵測等,非專業人士的標註不僅可能出錯,甚至會誤導模型的學習方向,導致模型產生偏誤或做出錯誤的判斷。
專家標註雖然成本較高,但其提供的黃金標準(Gold Standard)標註,對於訓練出高準確度、高可靠性的 AI 模型至關重要。
主動式資料篩選與專家標註的整合流程
結合這兩者的流程,通常會以一個迭代循環的方式進行,具體步驟如下:
* 1、初始模型建立: 首先,使用一小部分隨機抽樣且已經由專家標註好的資料,訓練一個初始的 AI 模型。這個模型的效能可能還不夠好,但它將作為後續主動學習的基礎。
* 2、主動式資料篩選: 接著,利用這個初始模型對龐大的未標註資料庫進行預測。根據預設的查詢策略(如前述的不確定性抽樣等),模型會篩選出一批它認為最需要被標註的「高價值」資料。
* 3、專家標註: 系統將這些被篩選出的資料提交給領域專家。專家會運用其專業知識,為這些資料提供最準確的標籤。
* 4、模型更新與迭代: 將專家標註好的新資料加入原有的訓練集中,用以重新訓練並更新 AI 模型。經過這次的學習,模型的效能將會有所提升。
* 循環重複: 不斷重複步驟 2 到 4,模型將會越來越「聰明」,每一次都能更精準地挑選出對其學習最有幫助的資料。這個循環會持續進行,直到模型的效能達到預設的目標,或者標註的預算用盡為止。
結語:智慧化的資料策略,驅動 AI 發展
主動式資料篩選與專家標註流程,是一種更為智慧化、更具成本效益的資料標註策略。它不僅大幅降低了訓練高品質 AI 模型所需的資料標註量,更確保了每一筆標註資料的價值都能被最大化。在資料量龐大且專業知識密集的今天,這種方法無疑為 AI 技術的持續發展與應用落地,提供了一條更有效率的康莊大道。