今天來到第7天了,我們終於擺脫基礎教學,準備要進入數據分析的領域了,今天就是要來先聊聊數據分析中我們會用到最重要的四個package,想要學好數據分析這四個模組就一定需要熟悉
數據分析的第一步
由於現在網路的資源相當豐富,想要完成數據分析不再像以往那麼的困難,其中我們會用到,也最重要的就是這四個模組
- Numpy
- Pandas
- Matplotlib
- Seaborn
之後的篇章中,也會先教會大家這四個模組的操作,這樣一步步的循序漸進,我們在進入股市教學後,你們才能輕易的舉一反三
什麼是Numpy?
Numpy是許多python資料科學套件的基礎,主要是讓使用者可以更輕易的建立一維、二維等陣列的向量(vector)和矩陣(matrix),並進行高效率的大量資料運算
雖然python處理大量資料時有「list」可以讓我們做到類似矩陣的功效,但list效能表現並不是很理想,而Numpy具備平行處理的能力,可以將操作的動作一次套用在大型矩陣上,幫助我們做到更多方法建立多維度的數據和矩陣運算,像是Pandas就是建立在Numpy的基礎所延伸出來的模組
什麼是Pandas?
先說這裡的Pandas不是很多隻熊貓的意思唷!!這裡的Pandas是一個基於Numpy所延伸出來的模組,在處理數據上相當的好用且簡單,只需要透過標籤列和索引值就能輕易的處理數據
而Pandas中有兩個特有的資料結構,那就是「Series」與「DataFrame」
- Series : Series是一個類似陣列的物件,裡面包含陣列的資料,與Numpy陣列不同的地方是Series可以定義自己的索引值(index),可以想像成是Dictionary的進化版
- DataFrame : DataFrame就像我們在使用的Excel表格一樣,是一個二維的數據,包含了索引值(index)與標籤列(column),我們可以透過index跟column輕鬆的找到某筆資料,並且進行操作
什麼是Matplotlib?
Numpy跟Pandas都是在用於資料的處理,但當我們將資料處理好後,到底該如何分析給其他人一目了然呢?
沒錯,這時就要用到Matplotlib這個模組了,Matplotlib是python中用來繪圖所用,包含了大量的繪圖工具,你可以建立像是散點圖、長條圖、熱力圖等等圖表,並且許多流行的繪圖模組也都被設計與Matplotlib結合使用
什麼是Seaborn?
Seaborn本質上是一個基於Matplotlib庫的高級API,它包含更適合處理圖表的默認設置,此外還有豐富的可視化庫,包含一些複雜的類型,像是時間串行、聯合分佈圖、小提琴圖等等,讓使用者更輕易的建立圖表,可以說是Matplotlib的補強工具
總結
今天雖然沒有程式碼的教學,但這四個模組將會陪伴我們在金融數據分析領域中一輩子,除非往後有更強大更好用的麼模組取代掉它們,先了解好它們究竟是做什麼的,這樣在使用上才能更加靈活運用