SQL 解鎖 - SQL in Colab (DuckDB)

發佈於資料庫等個房間

更新於 2025/02/17發佈於 2025/02/17閱讀時間約 3 分鐘

如何在Google Colab環境裡使用Jupyter magic command (ipython-sql)，搭配DuckDB ，直接在 Colab Notebook 中

讀取csv 檔案
建立DuckDB 臨時資料庫 (存在記憶體)
執行 SQL 程式碼進行分析
轉換成 Pandas DataFrame

DuckDB 是什麼?

DuckDB 是一款輕量級、serverless、高性能的分析型數據庫，其向量化執行引擎(vectorized query processing)、內嵌式架構(embedded configuration)，使其成為數據科學家和分析師的得力工具。

本機數據分析: 無需額外的服務器設置，適合在邊緣設備(edge devices)上進行數據分析，尤其是隱私敏感的數據
數據預處理與特徵工程：能快速處理 CSV、Parquet 等格式的數據，並支持複雜的 SQL 操作，適合用於機器學習的數據準備階段
中小規模數據集分析：能高效處理數百 GB 級別的數據，適合於不需要分佈式計算的分析工作負載
ANSI SQL：支持 ANSI 標準 SQL，並提供一些擴展功能（如 PIVOT 和 UNPIVOT 操作），方便用戶進行複雜的數據分析

步驟細節

於 colab 左側檔案區上傳csv檔案，並按右鍵獲取檔案位置。

下載相關函式庫並執行魔術指令，包含加載 SQL extension ( 若已加載可以使用 %reload_ext sql 指令重新加載)、設定後端為 DuckDB。:memory 意謂資料庫僅存在於記憶體中，當程式結束時，所有資料會被清除。

直接撈取 Superstore.csv 裡的數據或create 一資料表superstore_test

可使用.DataFrame() 將資料轉成Pandas 資料形式

▌下載連結

以下為本 Python 程式碼(持續增加中)下載連結，想拿資料作練習的朋友可以點下單連結，下載連結會寄至您提供的Email喔! 目前資源會以Free Trial 形式免費一周，當然也歡迎您輸入金額小額贊助我們喔!

謝謝您花時間將此篇文章讀完，若覺得對您有幫助可以幫忙按個讚、分享來或是珍藏喔!也歡迎Follow我的Threads/ FB，持續追蹤生產力工具、商業分析、商業英文的實用範例，提升自己的職場力喔!

DigNo Ape 數遊原人程式語言DigNo Ape 數遊原人資料庫

DigNo Ape 數遊原人

39會員

81內容數

我們秉持著從原人進化的精神，不斷追求智慧的累積和工具的運用來提升生產力。我們相信，每一個成員都擁有無限的潛力，透過學習和實踐，不斷成長和進步。

留言0

查看全部

發表第一個留言支持創作者！

DigNo Ape 數遊原人的其他內容

SQL 解鎖 - 程式碼解析 1

請以口語、白話形式解析以下SQL程式碼並描繪你認為的原資料表([Database].[Schema].[Table] )結構樣貌。 SELECT A.[Business_Unit], A.[Order_Number] , SUM([Sales_Units]) as [Sales_Uni

#資料分析 #供應鏈 #分析

SQL 解鎖 - OVER()

OVER() 子句是Window Function的核心組成部分，用於在查詢結果集中定義一個「窗口」，使聚合函數或排名函數能夠在不改變原始數據結構的情況下，對特定資料進行計算。常搭配PARTITION BY將數據劃分成多個分群(類似GROUP BY，但不改變資料的結構、粒度)，

#資料分析 #商業分析 #資料

SQL 解鎖 - ABC 分析 in SQL

ABC 分析 ABC分析（ABC Analysis）是一種基於80/20的分類原則，常用於庫存管理、供應鏈分析和資源分配中。它將產品或項目按其相對重要性分為A、B 和 C三個類別。其目的是協助企業專注於最重要的項目，以提高效率和降低成本。

#SQL #資料分析 #ABC分析

SQL 解鎖 - JOIN (1)

上一篇我們介紹了SQL如何使用指定的條件，搭配的SELECT 和 FROM 來篩選資料。本篇我們來討論，如何將兩個或多個資料表中的資料結合在一起，根據欄位之間的邏輯關係來拼接、合併資料表。

#SQL #資料庫 #分析

SQL 解鎖 - 白話文運動 (Index)

SQL 中的 Index 是什麼? 加了以後會有什麼影響? 想像你在讀一本厚厚的小說，裡面有幾百頁。如果你想要找到某個關鍵情節，比如「主角第一次登場的地方」，如果你沒有做任何標記，你可能得從頭到尾翻書，直到找到那一頁為止，這樣會花很多時間。 ▌Index 就像書籤一樣

#SQL #資料庫 #資料分析

SQL 解鎖 - WHERE

上一篇我們介紹了SQL基本架構和語法，如何用簡單的SELECT 和 FROM 撈取資料。本篇我們來討論，如何根據指定的條件來篩選資料，僅返回符合條件的結果。

SQL 解鎖 - ABC 分析 in SQL

#SQL #資料分析 #ABC分析

SQL 解鎖 - JOIN (1)

#SQL #資料庫 #分析

SQL 解鎖 - 白話文運動 (Index)

你可能也想看

在此篇中，我們來拿實務的例子作實戰練習，我們會討論如何在Google Colab的環境下，撈取所有台美股的股票代碼，並獲取相關細節，最後將獲取的資訊存取於SQLite資料庫中。

#Python #SQL #Google

JayRay 的沙龍

2024/08/03

【資料分析】python資料視覺化基礎操作語法彙整

Python資料視覺化在數據分析中扮演關鍵角色，透過視覺化捕捉數據模式、趨勢和異常，透過Matplotlib等工具創建專業圖表變相對簡單和高效。

#python #Matplotlib #資料分析

果農的沙龍

2024/06/14

如何用Python篩選每個人的第一筆紀錄？

用Python篩選每個人的第一筆紀錄

如何用Python將DataFrame中的資料擷取維新的DataFrame

如何用Python將DataFrame中的資料擷取維新的DataFrame？

本文介紹了如何使用資料樞紐分析的功能來整理所需的資料，並設定圖表的中文字型，最後提供了繪圖的程式碼範例。

本文介紹瞭如何使用 Python pandas 進行資料分析，包括如何使用 corr() 函數針對數字類型的欄位進行分析，以及如何刪除不需要的欄位和取得想要的小數位數。

Reshape Data: Concatenate 串接兩張資料表_Intro to Pandas

題目敘述題目會給定兩個pandas DataFrame作為輸入，要求我們將兩張資料表，依照原有的順序串接在一起。題目的原文敘述測試範例 Example 1: Input: df1 +------------+---------+-----+ | student_id | name

#pandas #dataframe #concat

小松鼠的演算法樂園

2024/01/09

Create a dataframe from list 將輸入轉換為padnas dataframe

題目敘述題目會給定一個python list形式的輸入，要求我們把它轉換成pandas dataframe的形式做輸出。並且指定column名稱分別為student_id, 和 age 題目的原文敘述測試範例

#pandas #dataframe #python

【資料分析】python資料視覺化基礎操作語法彙整

Python資料視覺化在數據分析中扮演關鍵角色，透過視覺化捕捉數據模式、趨勢和異常，透過Matplotlib等工具創建專業圖表變相對簡單和高效。

#python #Matplotlib #資料分析

果農的沙龍

2024/06/14

如何用Python篩選每個人的第一筆紀錄？

用Python篩選每個人的第一筆紀錄

如何用Python將DataFrame中的資料擷取維新的DataFrame

如何用Python將DataFrame中的資料擷取維新的DataFrame？

本文介紹了如何使用資料樞紐分析的功能來整理所需的資料，並設定圖表的中文字型，最後提供了繪圖的程式碼範例。

Reshape Data: Concatenate 串接兩張資料表_Intro to Pandas

#pandas #dataframe #concat

小松鼠的演算法樂園

2024/01/09

Create a dataframe from list 將輸入轉換為padnas dataframe

#pandas #dataframe #python