【資料處理神器區 - Pytube系列】蒐集情報讓數據會說話

2023/08/18閱讀時間約 0 分鐘

這次要來介紹「pytube」這套神器，當我們需要對影音進行統計分析時就需要使用這把利器來破關，尤其是AI時代的來臨，我們會需要大量的資料來進行模型的訓練，而我們總不可能海量的去撈取這些資料，會非常沒有效率也浪費空間，因此我們會先進行偵查的任務，需要派出偵察隊來蒐集youtube的影音資訊再來決策下一步…。

而針對youtube影音平台的情境底下，「pytube」就是偵查隊的最佳武器，它不僅能夠蒐集基本資訊(長度、熱度、頻道數量、評分…)，也能夠抓取影片或者音訊，非常的方便好用。

那我們今天就來表演一下這套神器的使用方式，預計抓取的資訊有音檔長度、發布日期、評分、多少人看過，這些資訊背後都隱藏著驚人的秘密...。

安裝

!pip install pytube

引入套件庫並設定目標連結

ℹ️ 這裡的 ${影片網址} 請貼上目標的影片連結。

這個步驟是基本使用上的第一步，提供網址讓「pytube」去自動抓取相關資訊，這一步並沒有實際進行下載，因此網路傳輸的耗費並不大，主要用來蒐集情資使用。

from pytube import YouTube

yt = YouTube('${影片網址}')

哪些資訊可以偵查？

# 標題
print(f'標題: {yt.title}')

# 作者
print(f'作者: {yt.author}')

# 頻道識別碼
print(f'頻道識別碼: {yt.channel_id}')

# 影片的描述
print(f'影片的描述: {yt.description}')

# 影片的關鍵字
print(f'影片的關鍵字: {yt.keywords}')

# 影片的長度(秒)
print(f'影片的長度: {yt.length} 秒')

# 發布日期
print(f'發布日期: {yt.publish_date}')

# 評分
print(f'評分: {yt.rating}')

# 多少個人瀏覽過
print(f'多少人看過: {yt.views}')py

有了這些資訊我們可以做什麼？就讓我列出幾個可能的方向供您思考：

長度介於多少範圍的影音檔分析。
瀏覽數量分析。
評分高低分析。
日期區間分析。

P.S 年份較舊的影片可能缺少關鍵字、評分...等資訊，畢竟早期也還沒規劃大數據的應用...。

可以怎麼統計分析？

我們可以藉由另一套神器pandas來進行...，底下提供幾個學習資源包，可以建立基本概念後配合動手實作加深印象:

上面的教學讀完了嗎？接下來會教您如何結合pytube + pandas來構建屬於自己的影音分析系統、高品質語料庫爬蟲系統...，這些實戰我們也會放在會員專屬文章區，歡迎支持一下付費專欄，讓我們更有動力分享關於軟體科技的武功心法：

🔥 阿Han的軟體心法實戰營

今天的範例都在這裡「📦 pytube_quickstart.ipynb」歡迎自行取用。

如何使用請參閱「【Google Colab Python系列】Colab平台與Python如何擦出火花？」。

結語

初步認識到pytube的功能之後，我們就可以統計分析決定目標群，甚至打造屬於AI訓練的爬蟲系統，或者結合推薦系統建立個人 + 商業化的影音推播系統...，非常的靈活，重點在於我們會不會使用工具，如何讓工具變成武器，因此有個領路人可以讓您少走點彎路，不妨花個銅板費購買一下實戰專欄，讓您創造出各種創新的應用，甚至能夠成立公司開發產品。

喜歡撰寫文章的你，不妨來了解一下：

Web3.0時代下為創作者、閱讀者打造的專屬共贏平台 — 為什麼要加入？

歡迎加入一起練習寫作，賺取知識

#python

#pytube

#程式語言

阿Han的沙龍阿Han的軟體技術棧 💡python

阿Han的沙龍

109會員

249Content count

哈囉，我是阿Han，是一位 👩‍💻 軟體研發工程師，喜歡閱讀、學習、撰寫文章及教學，擅長以圖代文，化繁為簡，除了幫助自己釐清思路之外，也希望藉由圖解的方式幫助大家共同學習，甚至手把手帶您設計出高品質的軟體產品。

留言0

查看全部

發表第一個留言支持創作者！

阿Han的沙龍的其他內容

【Docker 容器化】初探微服務時代的虛擬化技術

講到Docker之前就必須先談談容器化，容器化是一種軟體開發的方法，將程式、依賴及組態封裝在映像檔之中，那映像檔對於大部份的人來說一定非常的熟悉，尤其是VM這個詞，虛擬化技術的先行者，有了這項技術之後，我們就可以減少一些因為環境產生的問題導致難以排查程式錯誤的狀況，甚至可以避免因為A

#Docker #Linux #作業系統

【Python套件管理區 - PyPI系列】平台開始使用F2A來管制套件囉

一早看著IThome的新聞發現到這個標題「📢 PyPI新帳號現需要啟用雙因素驗證才能執行管理操作」，而近期幾乎都在接觸Python語言，在Python的生態圈裡相信對於「pip install…」應該相當熟悉了吧！但對於背後的平台相信我們不曾仔細去了解一番，這好藉著這次的觀點也順便來介紹一

#python #程式語言

【資料處理神器區 - NumPy系列】奠定資料科學的基礎模組(安裝與認識維度)

學習資料科學的過程中相信最熱門的目前應該是Python程式語言了，而Python的世界裡再進行資料科學時最常用的有「Pandas」、「SciPy」、「Scikit-learn」...等，而這些的基礎幾乎都與「NumPy」離不開關係，因為「NumPy」就是地基，這些較為高階的套件則是基於地基發展而起。

#python #程式語言 #Numpy