【資料處理神器區 - Pytube系列】 蒐集情報讓數據會說話

更新 發佈
raw-image

這次要來介紹「pytube」這套神器, 當我們需要對影音進行統計分析時就需要使用這把利器來破關, 尤其是AI時代的來臨, 我們會需要大量的資料來進行模型的訓練, 而我們總不可能海量的去撈取這些資料, 會非常沒有效率也浪費空間, 因此我們會先進行偵查的任務, 需要派出偵察隊來蒐集youtube的影音資訊再來決策下一步…。

而針對youtube影音平台的情境底下, 「pytube」就是偵查隊的最佳武器, 它不僅能夠蒐集基本資訊(長度、熱度、頻道數量、評分…), 也能夠抓取影片或者音訊, 非常的方便好用。

那我們今天就來表演一下這套神器的使用方式, 預計抓取的資訊有音檔長度、發布日期、評分、多少人看過,這些資訊背後都隱藏著驚人的秘密...。

安裝


!pip install pytube


引入套件庫並設定目標連結

ℹ️ 這裡的 ${影片網址} 請貼上目標的影片連結。

這個步驟是基本使用上的第一步, 提供網址讓「pytube」去自動抓取相關資訊, 這一步並沒有實際進行下載, 因此網路傳輸的耗費並不大, 主要用來蒐集情資使用。


from pytube import YouTube

yt = YouTube('${影片網址}')


哪些資訊可以偵查?


# 標題
print(f'標題: {yt.title}')

# 作者
print(f'作者: {yt.author}')

# 頻道識別碼
print(f'頻道識別碼: {yt.channel_id}')

# 影片的描述
print(f'影片的描述: {yt.description}')

# 影片的關鍵字
print(f'影片的關鍵字: {yt.keywords}')

# 影片的長度()
print(f'影片的長度: {yt.length} 秒')

# 發布日期
print(f'發布日期: {yt.publish_date}')

# 評分
print(f'評分: {yt.rating}')

# 多少個人瀏覽過
print(f'多少人看過: {yt.views}')py
raw-image


有了這些資訊我們可以做什麼? 就讓我列出幾個可能的方向供您思考:

  • 長度介於多少範圍的影音檔分析。
  • 瀏覽數量分析。
  • 評分高低分析。
  • 日期區間分析。

P.S 年份較舊的影片可能缺少關鍵字、評分...等資訊, 畢竟早期也還沒規劃大數據的應用...。

可以怎麼統計分析?

我們可以藉由另一套神器pandas來進行..., 底下提供幾個學習資源包, 可以建立基本概念後配合動手實作加深印象:

上面的教學讀完了嗎? 接下來會教您如何結合pytube + pandas來構建屬於自己的影音分析系統、高品質語料庫爬蟲系統..., 這些實戰我們也會放在會員專屬文章區, 歡迎支持一下付費專欄, 讓我們更有動力分享關於軟體科技的武功心法:

🔥 阿Han的軟體心法實戰營

今天的範例都在這裡「📦 pytube_quickstart.ipynb」歡迎自行取用。

如何使用請參閱「【Google Colab Python系列】Colab平台與Python如何擦出火花?」。

結語

初步認識到pytube的功能之後, 我們就可以統計分析決定目標群, 甚至打造屬於AI訓練的爬蟲系統, 或者結合推薦系統建立個人 + 商業化的影音推播系統..., 非常的靈活, 重點在於我們會不會使用工具, 如何讓工具變成武器, 因此有個領路人可以讓您少走點彎路, 不妨花個銅板費購買一下實戰專欄, 讓您創造出各種創新的應用, 甚至能夠成立公司開發產品。

喜歡撰寫文章的你,不妨來了解一下:

Web3.0時代下為創作者、閱讀者打造的專屬共贏平台 — 為什麼要加入?

歡迎加入一起練習寫作,賺取知識

留言
avatar-img
阿Han的沙龍
150會員
324內容數
哈囉,我是阿Han,是一位 👩‍💻 軟體研發工程師,喜歡閱讀、學習、撰寫文章及教學,擅長以圖代文,化繁為簡,除了幫助自己釐清思路之外,也希望藉由圖解的方式幫助大家共同學習,甚至手把手帶您設計出高品質的軟體產品。
阿Han的沙龍的其他內容
2025/01/29
🤔 簡單且靜態就足夠了? 相信我們在開發Python應用程式的過程中, 常常會借用Enum來定義我們可能的選項, 就像顏色紅、綠、黃會有這樣的結構: class Color(str, Enum): RED = 'red' GREED = 'green' YELLOW = 'yel
Thumbnail
2025/01/29
🤔 簡單且靜態就足夠了? 相信我們在開發Python應用程式的過程中, 常常會借用Enum來定義我們可能的選項, 就像顏色紅、綠、黃會有這樣的結構: class Color(str, Enum): RED = 'red' GREED = 'green' YELLOW = 'yel
Thumbnail
2025/01/08
當我們的系統發展到一定程度時, 難免會面臨到正式上線的問題, 要如何讓維運更加簡易呢? 尤其隨著複雜的客製化配置的出現時, 我們應該如何有效的管理, 甚至驗證配置是否如預期資料型態、格式…, 而正好 pydantic 可以滿足這樣的需求, 就讓我們來看看怎麼使用吧! 需安裝的套件 pip i
Thumbnail
2025/01/08
當我們的系統發展到一定程度時, 難免會面臨到正式上線的問題, 要如何讓維運更加簡易呢? 尤其隨著複雜的客製化配置的出現時, 我們應該如何有效的管理, 甚至驗證配置是否如預期資料型態、格式…, 而正好 pydantic 可以滿足這樣的需求, 就讓我們來看看怎麼使用吧! 需安裝的套件 pip i
Thumbnail
2025/01/02
要如何使用unicorn啟動多個FastAPI服務, 歡迎參考我們的「【💊 Python的解憂錦囊 - FastAPI】如何啟動多個Workers」。 當我們試著設計帶入模組化時… 我們在「【💊 Python的解憂錦囊 - FastAPI】使用 lifespan 來共享資料與管理生命週期
Thumbnail
2025/01/02
要如何使用unicorn啟動多個FastAPI服務, 歡迎參考我們的「【💊 Python的解憂錦囊 - FastAPI】如何啟動多個Workers」。 當我們試著設計帶入模組化時… 我們在「【💊 Python的解憂錦囊 - FastAPI】使用 lifespan 來共享資料與管理生命週期
Thumbnail
看更多
你可能也想看
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
這次要來介紹「pytube」這套神器, 當我們需要對影音進行統計分析時就需要使用這把利器來破關, 尤其是AI時代的來臨, 我們會需要大量的資料來進行模型的訓練, 而我們總不可能海量的去撈取這些資料, 會非常沒有效率也浪費空間, 因此我們會先進行偵查的任務, 需要派出偵察隊來蒐集youtube的影音資
Thumbnail
這次要來介紹「pytube」這套神器, 當我們需要對影音進行統計分析時就需要使用這把利器來破關, 尤其是AI時代的來臨, 我們會需要大量的資料來進行模型的訓練, 而我們總不可能海量的去撈取這些資料, 會非常沒有效率也浪費空間, 因此我們會先進行偵查的任務, 需要派出偵察隊來蒐集youtube的影音資
Thumbnail
嗨! 各位學員大家好,歡迎來到「🔒 Python實戰營 - Data Science 必修班」,為什麼會設計成必修班呢? 我們都知道AI的趨勢已經勢在必行,前往AI的道路上最基礎的就是資料處理、資料科學,AI模型訓練的過程中最忌諱的就是垃圾進、垃圾出,這不僅在AI模型適用,包括我們傳統的軟體開發
Thumbnail
嗨! 各位學員大家好,歡迎來到「🔒 Python實戰營 - Data Science 必修班」,為什麼會設計成必修班呢? 我們都知道AI的趨勢已經勢在必行,前往AI的道路上最基礎的就是資料處理、資料科學,AI模型訓練的過程中最忌諱的就是垃圾進、垃圾出,這不僅在AI模型適用,包括我們傳統的軟體開發
Thumbnail
我們都知道AI的模型訓練環節中, 最基礎也是最重要的一環就是「資料」了, 而「資料」要怎麼處理成訓練的養分也是一門重要的工程, 正好在Python的世界裡具有這麼一套神兵利器, 名為「Pandas」, 它是一個快速、強大、靈活且易於使用的開源數據分析和操作工具, 就讓我們好好的來認識一番吧! 乍聽
Thumbnail
我們都知道AI的模型訓練環節中, 最基礎也是最重要的一環就是「資料」了, 而「資料」要怎麼處理成訓練的養分也是一門重要的工程, 正好在Python的世界裡具有這麼一套神兵利器, 名為「Pandas」, 它是一個快速、強大、靈活且易於使用的開源數據分析和操作工具, 就讓我們好好的來認識一番吧! 乍聽
Thumbnail
這是我看完「TPG 週刊 Issue 44 - 為了收集第一方數據跑去做電視機」這篇文章(有興趣的朋友請前往)的心得。
Thumbnail
這是我看完「TPG 週刊 Issue 44 - 為了收集第一方數據跑去做電視機」這篇文章(有興趣的朋友請前往)的心得。
Thumbnail
人們透過機器學習(machine learning),試著讓電腦能夠從大量資料中學習成長,不僅可以運用在生活各方面的功能提升,甚至還能透過這些既有的資料,起到鑑往知來的效果,處在當今資訊爆炸的時代,正是你開始學機器學習的最好時機!
Thumbnail
人們透過機器學習(machine learning),試著讓電腦能夠從大量資料中學習成長,不僅可以運用在生活各方面的功能提升,甚至還能透過這些既有的資料,起到鑑往知來的效果,處在當今資訊爆炸的時代,正是你開始學機器學習的最好時機!
Thumbnail
臉書(Facebook)、推特(Twitter)、抖音(TikTok)、IG(Instagram)等社交媒體都面臨一個同樣的問題,那就是不當內容的監控,尤其是對於影片的內容。
Thumbnail
臉書(Facebook)、推特(Twitter)、抖音(TikTok)、IG(Instagram)等社交媒體都面臨一個同樣的問題,那就是不當內容的監控,尤其是對於影片的內容。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News