會 SQL 就能使用的 Machine learning 工具 - BigQuery ML

更新於 2024/09/21閱讀時間約 2 分鐘

我們公司經營了一個類似 LinkedIn 的求職平台,主要的商業模式是幫助企業找到適合的人才,媒合成功後,我們會根據錄取人才的薪資比例收取服務費(類似獵頭模式)。因為我們的商業模式依賴業務人員與客戶的互動,而業務人員的時間有限,因此,能否在早期辨識出哪個客戶具有更高的合作潛力,對資源的分配至關重要。

為了解決問題,我的分析目標是:如何在客戶進行 onboarding 流程時,辨識出其潛在價值,並進行客戶分群。這樣我們可以更有效地將資源集中在更有可能成功合作的客戶身上。

而我當時進行分析的步驟是:

1. 定義「好客戶」

我們使用歷史數據,並定義那些被業務標示為「值得合作」的客戶為「好客戶」。

2. 發想有用的特徵(Feature Engineering 特徵工程)

我發想了一些可能有助於區分「好客戶」與「其他客戶」的特徵,例如客戶的地區、預算範圍、以及希望招募的職位類型等。

3. 查看 Feature 與目標的相關性

接下來,我逐一檢視每個特徵與「好客戶」的相關性,通過製作圖表來視覺化這些關係。

然而,這個過程比較耗時,因為每一個 feature 需要單獨做一個圖表。當時我分析了 10 個特徵,結果製作了 10 張圖表,效率不高

  1. 根據相關性結果給予分群建議

根據 3. 得到的相關性結果,告知 PM 讓他們知道如何在 onboarding 過程做適當的分群


機器學習提升效率

在我學習更多 Machine Learning 知識後,我意識到「3. 查看 Feature 與目標的相關性」這個步驟,其實可以使用機器學習模型來自動化,不但可以節省時間,還有機會找出更複雜的邏輯

然而,建立預測模型通常需要寫程式(例如使用 Python),而對於不熟悉 Python 的 Data Analyst 來說,這是一個障礙。為了解決這個問題,我開始尋找能夠不用寫程式就能達成的解決方案,最後我發現了 BigQuery ML(BQ ML)


BigQuery ML 的優勢

BQ ML 可以通過簡單的 SQL 指令來構建機器學習模型。這意味著即使不會 Python 的分析師,也可以通過 SQL 來訓練模型、查看特徵重要性、進行預測等

詳細做法可參考這篇文章,我這裡主要列出我認為重要的三個指令:

  1. 建立模型
CREATE OR REPLACE MODEL
`richard.lr_model`
OPTIONS
( model_type='LOGISTIC_REG',
input_label_cols=['is_hired'],
ENABLE_GLOBAL_EXPLAIN=TRUE
) AS

SELECT
request_rate, --feature
event_order, --feature
tech_stack_match_count, --feature
is_hired --label
FROM `richard.demo_table`
ORDER BY event_created_at DESC LIMIT 10000 OFFSET 1000
  1. 查看特徵重要性(Feature importance)
SELECT
*
FROM
ML.GLOBAL_EXPLAIN(MODEL `richard.lr_model`)
  1. 使用模型進行預測
SELECT
*
FROM
ML.PREDICT (MODEL `richard.lr_model`,
(
SELECT
request_rate,
event_order,
tech_stack_match_count,
is_hired
FROM `richard.demo_table`
ORDER BY event_created_at DESC LIMIT 1000
)
)

這些 SQL 指令大大簡化了過去繁瑣的步驟,讓我能夠快速分析多個特徵,提升找到 insights 的效率(回扣到 數據分析師 Data Analyst 需要的四種能力 裡提到的 inspiration-per-minute)


BQ ML 的具體應用

利用 BQ ML,我能夠更快速地進行以下三個步驟:

  1. 建立模型:放入多個可能有影響的 features
  2. 查看特徵重要性:自動告訴我們哪些特徵對預測最有幫助,省去了手動檢查每個特徵的時間。
  3. 進行預測並改進模型:分析預測錯誤的情況,思考是否有潛在的有用特徵被忽略

持續的挑戰

儘管 BQ ML 很強大,但目前還有一些小問題,例如:

  1. 複雜模型耗時較久:例如樹模型 XGBoost 在資料量較小的情況下,仍然需要較長的運行時間,因此目前只能使用較簡單的模型(如邏輯回歸 Logistic regression)。
  2. 需要一定的機器學習基礎:要選擇合適的模型仍然需要機器學習知識,但這部分可以透過工具如 ChatGPT 來彌補。


謝謝你看到這邊,如果你看完文章後有任何想法或建議,都很歡迎在留言區提出分享!或是歡迎加我的 Linkedin 與我交流

avatar-img
1會員
10內容數
紀錄從事數據分析工作的心得與生活所學
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
數據分析師的雜談 的其他內容
這篇文章分享了作者在參與預估專案時的思考脈絡和學習點,透過兩個具體的案例,探討了預估方法中重要的假設和挑戰。
好的數據分析師要能做到釐清合作方需求、拆解問題並用數字詮釋問題、解釋分析結果以及寫出好維護的 SQL
這篇文章分享了作者在參與預估專案時的思考脈絡和學習點,透過兩個具體的案例,探討了預估方法中重要的假設和挑戰。
好的數據分析師要能做到釐清合作方需求、拆解問題並用數字詮釋問題、解釋分析結果以及寫出好維護的 SQL
你可能也想看
Google News 追蹤
Thumbnail
本文探討了複利效應的重要性,並藉由巴菲特的投資理念,說明如何選擇穩定產生正報酬的資產及長期持有的核心理念。透過定期定額的投資方式,不僅能減少情緒影響,還能持續參與全球股市的發展。此外,文中介紹了使用國泰 Cube App 的便利性及低手續費,幫助投資者簡化投資流程,達成長期穩定增長的財務目標。
Thumbnail
我最近在網上學到了一個非常實用的方法,可以快速了解一個行業。這個方法來自麥肯錫的工作方法,搭配ChatGPT使用非常高效。只要你學會了,就能輕鬆掌握任何行業的基礎知識。 麥肯錫的方法論 第一步:總結關鍵詞
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
AI 工具雖能在短時間生成內容,但它不瞭解你的客戶,也無法取代你做現場互動交流。在合適的時機選擇使用適合的 AI 工具,幫助我們專注於最重要的人事物上。
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
Thumbnail
介紹: 類似於chatGPT,openAI為他們技術指導,而他們將它延伸利用,主要有三部分 1、AI顧問 2、技術分析 3、交易 目前交易功能還無法使用,技術分析還蠻酷的,不過只能分析1小時線,
Thumbnail
本文探討了複利效應的重要性,並藉由巴菲特的投資理念,說明如何選擇穩定產生正報酬的資產及長期持有的核心理念。透過定期定額的投資方式,不僅能減少情緒影響,還能持續參與全球股市的發展。此外,文中介紹了使用國泰 Cube App 的便利性及低手續費,幫助投資者簡化投資流程,達成長期穩定增長的財務目標。
Thumbnail
我最近在網上學到了一個非常實用的方法,可以快速了解一個行業。這個方法來自麥肯錫的工作方法,搭配ChatGPT使用非常高效。只要你學會了,就能輕鬆掌握任何行業的基礎知識。 麥肯錫的方法論 第一步:總結關鍵詞
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
AI 工具雖能在短時間生成內容,但它不瞭解你的客戶,也無法取代你做現場互動交流。在合適的時機選擇使用適合的 AI 工具,幫助我們專注於最重要的人事物上。
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
Thumbnail
介紹: 類似於chatGPT,openAI為他們技術指導,而他們將它延伸利用,主要有三部分 1、AI顧問 2、技術分析 3、交易 目前交易功能還無法使用,技術分析還蠻酷的,不過只能分析1小時線,