繼深度學習之後,生成式AI的發展已經大幅度的改變了市場的規則。但是企業的AI專案並非都能順利部署與後續發展,甚至許多AI項目在發展與部署後常常失敗,這不僅造成企業的成本損失,而且也造成高階管理者在決策上的尷尬。即便,近來大幅在生成式AI造成市場大幅成功的微軟,在過往的聊天機器人產品上面也有產生多個失誤。
MIT Sloan Management Review刊登的這篇研究就探討了AI及其深度學習模型如何改變商業決策與運作模式。並且探討數據科學家如何尋找有助於防止未來失敗的模式。
數據科學家都受過高度訓練,但是為何會產生錯誤?
數據科學家的教育訓練都集中在機器學習的處理上,並沒有考慮到產品在使用上的侷限性。因此,本篇研究認為「數據科學家無法有效防止或正確診斷AI模型的失敗?」。
AI開發者必須評估「模型的泛化能力」,也就是「模型在未來以及超出其訓練數據集限制」的能力。但是,「模型泛化能力的定義並不清且缺乏嚴謹性。」
因此,這篇文章提出三個觀點就是協助缺乏技術的高階主管針對「辨識有效的AI模型和數據集」提出方法。
- 提供數據概念框架: 正確數據的概念,對於高階主管非常重要。在AI項目中使用的實際數據與所需的正確數據之間的不匹配可能是危險的。
- 提出AI模型開發者應回答的六個問題: 在模型設計、開發和部署之前和期間,詢問模型開發者要回答六個問題。
一、提出一個框架,有效識別正確的數據:
AI項目的成功與否取決於它所使用的數據集。為了幫助團隊找到正確的數據,我們提供了一個包含五個元素的框架。
- 待解決的問題與關注的群體。
- 正確數據的概念。 對數據質量基礎的重要貢獻是“適用性”概念,數據集是否適合做某個決策、操作或分析。根據問題的不同,適用性可能有許多不同的方面,但“數據是否正確?”和“這是否是正確的數據?”這兩個問題總是非常重要的。在這裡,我們將關注“這是否是正確的數據?”的問題,因為它對評估泛化能力和防止項目失敗至關重要。 正確數據的六個維度:(1)相關性/完整性,數據應具有預測能力。在我們的信用評分示例中,年齡、遲付款歷史和收入等屬性可能有助於此。(2)全面性/足夠的代表性,兩個主要問題是“數據是否足夠涵蓋關注的人群?”以及“是否有足夠的數據來充分訓練模型?”重要的是,隱私或其他顧慮可能要求必須排除某些數據。(3) 免受偏見影響,數據中可能隱藏著多種偏見,這一維度要求消除這些偏見。這在我們的信用評分示例中以及任何涉及人類的問題中都是一個特殊的顧慮。 (4)及時性,關鍵問題是“數據必須多新?”對於某些問題,較舊的數據可能包含難以消除的偏見。而在某些應用中,(未來的)數據在創建後幾秒鐘內就不再相關了。(5)清晰定義,所有術語,包括測量單位,應清晰定義。(6)適當的排除,在上述相關性和全面性的討論中,我們指出了一些數據應該被排除,考慮到法律、監管、倫理和知識產權的因素。例如,使用郵政編碼可以在信用決策中作為種族的代理,組織必須避免違反法律規定如何使用個人身份y資訊。
二、提出六個重要問題
問題定義階段:
- 假設這個項目成功了,預計開發的模型將如何以及在哪裡被使用? 在答案中尋找什麼? 這個問題旨在確定模型開發者對企業試圖解決的實際問題的理解程度;關於關注的人群,哪些是範圍內的,哪些是範圍外的;以及開發者打算讓模型應用多久。 此外,這個問題為接下來的兩個問題奠定了基礎。我們建議管理者對這一查詢要求非常嚴格。太多的數據科學努力從一開始就因為未能明確問題聲明而註定失敗。
- 如何獲取符合正確數據標準的訓練數據? 這個問題可能是最關鍵的。在這一點上,模型開發者正在預測他們能獲取什麼數據。確保開發者已經整理出了正確的數據標準(使用上述六個考慮因素,從相關性開始)。接下來,檢查開發者是否有可信的計劃來獲得符合這些標準的數據。如果他們在這一階段的回答不足,應該重新回到設計。
構建AI模型階段
- 採取了哪些步驟來理解所獲訓練數據的完整歷史、細節、優勢和限制?與正確數據標準相比如何? 高階管理者需要確認 AI 模型開發者實際獲得了他們在第2個問題中預期獲得的數據。要求AI 模型開發者按標準相比較,列出訓練數據與正確數據之間的差距,評估差距的嚴重性,並解釋他們彌補重要差距的計劃。由於現實世界沒有所謂的完美數據集,因此預計會有差距。如果AI模型開發者報告說沒有差距,那就非常可疑。
- 如何檢查未來數據是否滿足正確數據標準? 在此時探討模型開發者,當AI 模型開發者剛剛完成訓練數據的工作時,確保他們考慮了未來數據的來源。如果沒有,要求他們仔細考慮這一點。 (第5個問題將對此進行後續跟進。)
部署前和部署階段
- 你將如何確保未來數據符合你的期望?為了確保成功部署和未來數據的模型準確性,你們有哪些對數據和模型的控制措施? 這是基於第4個問題關於未來數據的討論,高階管理者應該要確保開發者已經建立了一套評估未來數據的系統,在使用這些數據於模型或用於更新模型之前進行評估。這一點非常重要,因為公司希望AI模型部署能達到最佳效果,但高階管理者通常會被建議要為最壞的情況做好準備。管理者應確保模型開發者有一個控制計劃,這個計劃能夠防止或至少提前警告未來數據的變化或模型性能的不良。例如,模型準確度隨時間逐漸下降將如何被檢測到?最後,探究開發者更新模型的計劃,隨著未來數據的可用性。
- 能想像模型在部署中可能失敗的前三種方式是什麼?AI已經採取了哪些步驟來減少這些風險? AI 模型開發者很久以前就已經學會了技術系統常常會在他們最努力的情況下失敗。因此,他們開發了失效模式和效應分析(FMEA),以幫助在問題發生之前預見潛在的失敗並制定應急計劃以避免或至少檢測到它們。
三、結論
高階管理者應該知道許多數據科學家和AI模型開發者可能不喜歡回答這些問題。但考慮到數據科學專案的高失敗率,詢問“如何防止專案失敗?”是良好的管理作為。
更重要的是,正如一個Google研究團隊所指出的,“每個人都想做模型工作,而不是數據工作。”
但是,高階管理者沒有這種奢侈。強調正確的數據的重要性,不僅僅是為了構建模型,而且還包括將來驗證和利用這些模型,這或許是管理者增加機器學習和AI專案成功率最重要的一件事。
資料來源:What Managers Should Ask About AI Models and Data Sets