【資料處理神器區 - Pytube系列】 蒐集情報讓數據會說話

更新於 發佈於 閱讀時間約 0 分鐘
raw-image

這次要來介紹「pytube」這套神器, 當我們需要對影音進行統計分析時就需要使用這把利器來破關, 尤其是AI時代的來臨, 我們會需要大量的資料來進行模型的訓練, 而我們總不可能海量的去撈取這些資料, 會非常沒有效率也浪費空間, 因此我們會先進行偵查的任務, 需要派出偵察隊來蒐集youtube的影音資訊再來決策下一步…。

而針對youtube影音平台的情境底下, 「pytube」就是偵查隊的最佳武器, 它不僅能夠蒐集基本資訊(長度、熱度、頻道數量、評分…), 也能夠抓取影片或者音訊, 非常的方便好用。

那我們今天就來表演一下這套神器的使用方式, 預計抓取的資訊有音檔長度、發布日期、評分、多少人看過,這些資訊背後都隱藏著驚人的秘密...。

安裝


!pip install pytube


引入套件庫並設定目標連結

ℹ️ 這裡的 ${影片網址} 請貼上目標的影片連結。

這個步驟是基本使用上的第一步, 提供網址讓「pytube」去自動抓取相關資訊, 這一步並沒有實際進行下載, 因此網路傳輸的耗費並不大, 主要用來蒐集情資使用。


from pytube import YouTube

yt = YouTube('${影片網址}')


哪些資訊可以偵查?


# 標題
print(f'標題: {yt.title}')

# 作者
print(f'作者: {yt.author}')

# 頻道識別碼
print(f'頻道識別碼: {yt.channel_id}')

# 影片的描述
print(f'影片的描述: {yt.description}')

# 影片的關鍵字
print(f'影片的關鍵字: {yt.keywords}')

# 影片的長度()
print(f'影片的長度: {yt.length} 秒')

# 發布日期
print(f'發布日期: {yt.publish_date}')

# 評分
print(f'評分: {yt.rating}')

# 多少個人瀏覽過
print(f'多少人看過: {yt.views}')py
raw-image


有了這些資訊我們可以做什麼? 就讓我列出幾個可能的方向供您思考:

  • 長度介於多少範圍的影音檔分析。
  • 瀏覽數量分析。
  • 評分高低分析。
  • 日期區間分析。

P.S 年份較舊的影片可能缺少關鍵字、評分...等資訊, 畢竟早期也還沒規劃大數據的應用...。

可以怎麼統計分析?

我們可以藉由另一套神器pandas來進行..., 底下提供幾個學習資源包, 可以建立基本概念後配合動手實作加深印象:

上面的教學讀完了嗎? 接下來會教您如何結合pytube + pandas來構建屬於自己的影音分析系統、高品質語料庫爬蟲系統..., 這些實戰我們也會放在會員專屬文章區, 歡迎支持一下付費專欄, 讓我們更有動力分享關於軟體科技的武功心法:

🔥 阿Han的軟體心法實戰營

今天的範例都在這裡「📦 pytube_quickstart.ipynb」歡迎自行取用。

如何使用請參閱「【Google Colab Python系列】Colab平台與Python如何擦出火花?」。

結語

初步認識到pytube的功能之後, 我們就可以統計分析決定目標群, 甚至打造屬於AI訓練的爬蟲系統, 或者結合推薦系統建立個人 + 商業化的影音推播系統..., 非常的靈活, 重點在於我們會不會使用工具, 如何讓工具變成武器, 因此有個領路人可以讓您少走點彎路, 不妨花個銅板費購買一下實戰專欄, 讓您創造出各種創新的應用, 甚至能夠成立公司開發產品。

喜歡撰寫文章的你,不妨來了解一下:

Web3.0時代下為創作者、閱讀者打造的專屬共贏平台 — 為什麼要加入?

歡迎加入一起練習寫作,賺取知識

avatar-img
118會員
266內容數
哈囉,我是阿Han,是一位 👩‍💻 軟體研發工程師,喜歡閱讀、學習、撰寫文章及教學,擅長以圖代文,化繁為簡,除了幫助自己釐清思路之外,也希望藉由圖解的方式幫助大家共同學習,甚至手把手帶您設計出高品質的軟體產品。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
阿Han的沙龍 的其他內容
講到Docker之前就必須先談談容器化, 容器化是一種軟體開發的方法, 將程式、依賴及組態封裝在映像檔之中, 那映像檔對於大部份的人來說一定非常的熟悉, 尤其是VM這個詞, 虛擬化技術的先行者, 有了這項技術之後, 我們就可以減少一些因為環境產生的問題導致難以排查程式錯誤的狀況, 甚至可以避免因為A
一早看著IThome的新聞發現到這個標題「📢 PyPI新帳號現需要啟用雙因素驗證才能執行管理操作」, 而近期幾乎都在接觸Python語言, 在Python的生態圈裡相信對於「pip install…」應該相當熟悉了吧! 但對於背後的平台相信我們不曾仔細去了解一番, 這好藉著這次的觀點也順便來介紹一
學習資料科學的過程中相信最熱門的目前應該是Python程式語言了,而Python的世界裡再進行資料科學時最常用的有「Pandas」、「SciPy」、「Scikit-learn」...等,而這些的基礎幾乎都與「NumPy」離不開關係,因為「NumPy」就是地基,這些較為高階的套件則是基於地基發展而起。
過往我們有介紹了「【Google Colab Python系列】 資料處理神器 Pandas 起手式」, 相信對於pandas的基本操作具有一定的基礎知識了, 主要著重在基本的操作, 讓我們快速篩選與分析資料, 但真實的世界是有可能具有很多類型的資料集分別儲存, 而不同的資料集又具有一些相似度, 需
上一篇我們有介紹了「【Google Colab Python系列】 資料處理神器 Pandas 起手式」, 相信對於pandas的基本操作具有一定的基礎知識了, 主要著重在基本的操作, 讓我們快速篩選與分析資料, 但真實的世界是有可能具有很多類型的資料集分別儲存, 而不同的資料集又具有一些相似度
我們都知道AI的模型訓練環節中, 最基礎也是最重要的一環就是「資料」了, 而「資料」要怎麼處理成訓練的養分也是一門重要的工程, 正好在Python的世界裡具有這麼一套神兵利器, 名為「Pandas」, 它是一個快速、強大、靈活且易於使用的開源數據分析和操作工具, 就讓我們好好的來認識一番吧! 乍聽
講到Docker之前就必須先談談容器化, 容器化是一種軟體開發的方法, 將程式、依賴及組態封裝在映像檔之中, 那映像檔對於大部份的人來說一定非常的熟悉, 尤其是VM這個詞, 虛擬化技術的先行者, 有了這項技術之後, 我們就可以減少一些因為環境產生的問題導致難以排查程式錯誤的狀況, 甚至可以避免因為A
一早看著IThome的新聞發現到這個標題「📢 PyPI新帳號現需要啟用雙因素驗證才能執行管理操作」, 而近期幾乎都在接觸Python語言, 在Python的生態圈裡相信對於「pip install…」應該相當熟悉了吧! 但對於背後的平台相信我們不曾仔細去了解一番, 這好藉著這次的觀點也順便來介紹一
學習資料科學的過程中相信最熱門的目前應該是Python程式語言了,而Python的世界裡再進行資料科學時最常用的有「Pandas」、「SciPy」、「Scikit-learn」...等,而這些的基礎幾乎都與「NumPy」離不開關係,因為「NumPy」就是地基,這些較為高階的套件則是基於地基發展而起。
過往我們有介紹了「【Google Colab Python系列】 資料處理神器 Pandas 起手式」, 相信對於pandas的基本操作具有一定的基礎知識了, 主要著重在基本的操作, 讓我們快速篩選與分析資料, 但真實的世界是有可能具有很多類型的資料集分別儲存, 而不同的資料集又具有一些相似度, 需
上一篇我們有介紹了「【Google Colab Python系列】 資料處理神器 Pandas 起手式」, 相信對於pandas的基本操作具有一定的基礎知識了, 主要著重在基本的操作, 讓我們快速篩選與分析資料, 但真實的世界是有可能具有很多類型的資料集分別儲存, 而不同的資料集又具有一些相似度
我們都知道AI的模型訓練環節中, 最基礎也是最重要的一環就是「資料」了, 而「資料」要怎麼處理成訓練的養分也是一門重要的工程, 正好在Python的世界裡具有這麼一套神兵利器, 名為「Pandas」, 它是一個快速、強大、靈活且易於使用的開源數據分析和操作工具, 就讓我們好好的來認識一番吧! 乍聽
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
很久前發表過一篇使用 chatgpt 來快速瞭解 Youtube 影片內容的影片(免費使用 AI 幫忙看 Youtube 影片並擷取重點,現在已經是過時的做法了,就不推薦了。)。當時的方式是去下載Youtube影片的字幕檔,交給 Chatgpt 分析。嗯⋯資訊科技實在變化的很快,現在...
使用 yt-dlp 下載 YT的教學 yt-dlp 是一款強大的命令行工具,用於下載來自 YT 及其他流媒體平台的音視頻資源。 本篇文章將參考yt-dlp github上 如何使用 yt-dlp 快速下載。 一、什麼是 yt-dlp? yt-dlp 是 youtube-dl 的分支項目,具
你是否曾夢想著,讓電腦聽命於你,自動化處理繁瑣的工作,甚至創造出你想像中的應用程式?你是否嚮往著,在資料洪流中挖掘出隱藏的寶藏,洞悉市場趨勢,做出精準的預測?這些聽起來像是電影情節的場景,如今都因為 Python 這門神奇的程式語言,變得觸手可及。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
紐約時報報導,OpenAI使用了自家的Whisper 轉錄 100 萬個小時的 YouTube 影片作為訓練模型資料。Meta正在討論即使被起訴,也要使用受版權保護的作品來作為模型訓練資料。幾大模型開發者目前都同樣遭遇了「優質訓練資料」不足的困近的困境,而必須走入灰色地帶來支持模型的開發。
Thumbnail
這篇文章將介紹如何利用播客研究法,精準地找出許多有價值的策略。透過在YouTube尋找播客節目、下載音檔、轉換成文字,最後利用工具找到藏在 Podcast 裡的「金點子」。
Thumbnail
本文討論了人類在面對變化時的應對策略,包括數據分析的重要性,科技趨勢對工作形態的影響,以及對無條件基本收入的討論。透過工程師職涯教練Yi姐豐富的經驗,分享如何運用數據進行更好的決策,探討寫作和自媒體創業的投資報酬率,以及對未來的靈活規劃。
Thumbnail
在敏捷的開發環境中,數據分析已成為企業和個人實現策略優化的關鍵工具,如何快速有效地進行 A/B 測試非常很重要。透過數據分析,Netflix 和 Spotify 這些串流平台得以透過數據優化行銷策略或是找出洞察,做出商業決策。 這篇文章開始,我們要導入數據分析的概念,探討 A/B 測試如何幫助我們
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
很久前發表過一篇使用 chatgpt 來快速瞭解 Youtube 影片內容的影片(免費使用 AI 幫忙看 Youtube 影片並擷取重點,現在已經是過時的做法了,就不推薦了。)。當時的方式是去下載Youtube影片的字幕檔,交給 Chatgpt 分析。嗯⋯資訊科技實在變化的很快,現在...
使用 yt-dlp 下載 YT的教學 yt-dlp 是一款強大的命令行工具,用於下載來自 YT 及其他流媒體平台的音視頻資源。 本篇文章將參考yt-dlp github上 如何使用 yt-dlp 快速下載。 一、什麼是 yt-dlp? yt-dlp 是 youtube-dl 的分支項目,具
你是否曾夢想著,讓電腦聽命於你,自動化處理繁瑣的工作,甚至創造出你想像中的應用程式?你是否嚮往著,在資料洪流中挖掘出隱藏的寶藏,洞悉市場趨勢,做出精準的預測?這些聽起來像是電影情節的場景,如今都因為 Python 這門神奇的程式語言,變得觸手可及。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
紐約時報報導,OpenAI使用了自家的Whisper 轉錄 100 萬個小時的 YouTube 影片作為訓練模型資料。Meta正在討論即使被起訴,也要使用受版權保護的作品來作為模型訓練資料。幾大模型開發者目前都同樣遭遇了「優質訓練資料」不足的困近的困境,而必須走入灰色地帶來支持模型的開發。
Thumbnail
這篇文章將介紹如何利用播客研究法,精準地找出許多有價值的策略。透過在YouTube尋找播客節目、下載音檔、轉換成文字,最後利用工具找到藏在 Podcast 裡的「金點子」。
Thumbnail
本文討論了人類在面對變化時的應對策略,包括數據分析的重要性,科技趨勢對工作形態的影響,以及對無條件基本收入的討論。透過工程師職涯教練Yi姐豐富的經驗,分享如何運用數據進行更好的決策,探討寫作和自媒體創業的投資報酬率,以及對未來的靈活規劃。
Thumbnail
在敏捷的開發環境中,數據分析已成為企業和個人實現策略優化的關鍵工具,如何快速有效地進行 A/B 測試非常很重要。透過數據分析,Netflix 和 Spotify 這些串流平台得以透過數據優化行銷策略或是找出洞察,做出商業決策。 這篇文章開始,我們要導入數據分析的概念,探討 A/B 測試如何幫助我們