資料科學

含有「資料科學」共 134 篇內容
全部內容
發佈日期由新至舊
前言 在建置「全球股市數據倉庫 (global-stock-data-warehouse)」時,自動化流程(GitHub Actions)是核心心臟。許多讀者在設定環境變數時常感到困惑。本篇將跳過基本的通知設定(如 Resend 或 Telegram),直接切入最重要的兩大核心變數,並分享一個能幫
Thumbnail
不想再被老闆問倒?數據不是用來交差的,是用來「讀心」的。車賢那,教你如何用「一個數字」搞定簡報,並從氣溫與時間中找出讓客戶瘋狂下單的秘密。這不是數學課,這是你的生存指南。
Thumbnail
📚 降維技術 降維是將高維數據轉換為低維表示的過程,同時保留數據的關鍵信息。這一技術對於現代機器學習至關重要,因為: 降低複雜度:減少特徵數量,簡化模型,加速訓練 消除冗餘:移除高度相關特徵,提高模型穩定性 減輕維度災難:在高維空間中,數據變得稀疏,距離度量失去意義 視覺化:將高維數據投
Thumbnail
🧲 特徵轉換方法 特徵轉換是調整數值型特徵分布形態的過程,幫助模型更有效地學習和提高預測性能。良好的特徵轉換可以: 改善數據分布:使偏斜分布更加對稱 降低異常值影響:減少極端值對模型的干擾 捕捉非線性關係:讓線性模型可以學習複雜模式 提高訓練穩定性:加速梯度下降收斂過程
Thumbnail
資料科學、機器學習與監督式學習,不只是 AI 技術,而是三種不同的思考模式: 資料科學像整理者,先把混亂世界排出秩序;機器學習像實驗者,先做再調整;監督式學習則是兩者的協作,先定義答案,再透過不斷嘗試逼近結果。理解這三種模式,有助於辨識自己的工作習慣與決策方式。
Thumbnail
🪛 特徵編碼 為什麼需要特徵編碼? 特徵編碼是將非數值型資料(如類別、文本等)轉換為數值形式的過程,這是機器學習模型處理資料的必要步驟,因為: 模型數值需求:大多數機器學習算法只接受數值輸入,無法直接處理文字或類別資料 語義保存:編碼過程必須保留原始類別的語義信息,不同編碼方式會保留不同的
Thumbnail
大家應該都實際練習過機器學習的四大技術了,包含迴歸分析、分類分析、分群分析以及時間序列分析。 在機器學習模型的開發過程中,我們常將焦點放在演算法的選擇與模型的訓練上,但實際上,一個高效且穩健的模型,往往取決於資料的前處理與特徵的設計。隨著模型複雜度提升,過擬合、特徵尺度不一致以及高維資料噪聲等問題會
Thumbnail
在現實生活中,許多資料並非靜止的,它們會隨著時間不斷變化,形成了一種特殊的資料型態,這就是時間序列資料。時間序列數據廣泛存在於各種領域,如金融市場的股票價格波動、氣候監測的溫度變化、製造業的機器故障檢測,以及網站流量的每日訪問量等。這些資料的最大特點在於:當前的觀測值與過去的值密切相關,未來的趨勢也
Thumbnail
Google 悄悄移除能顯示 100 筆搜尋結果的 &num=100 參數,對網路世界產生劇烈衝擊。 ​對 SEO 業者,這導致排名追蹤成本暴增近十倍,對 AI 發展,這形同 Google 築起一道「數據壁壘」。過去 AI 競爭者能低成本獲取大量數據來摘要資訊;現在成本與難度大增。
Thumbnail
含 AI 應用內容
#num100#AI#Google
EC3-avatar-img
2025/10/07
Keith-avatar-img
發文者
2025/10/07
前Google資料科學家賽斯.史蒂芬斯運用大數據分析,顛覆我們對擇偶、教養子女和致富的傳統認知。本書揭示數據背後的意想不到的人生選擇,帶領讀者跳脫直覺,做出更符合數據科學根據的最佳決策。
Thumbnail