五分鐘入門R與Python—使用情境與資源分享

更新於 發佈於 閱讀時間約 5 分鐘
raw-image

資料分析工具百百種,有容易操作資料、視覺化的BI工具、常用於各領域的分析模型套裝軟體等等,但對於想做資料分析、資料科學的人,「程式語言」可以說是現今不可或缺的能力,而R與Python則可以稱為資料科學領域最熱門的兩個程式語言。

關於R與Python的差異,許多文章都已詳細探討,這篇文章主要想分享自己在資料分析過程中使用兩者的情境,並分享學習過程中好用的資源

.使用情境

R—適合做統計建模與視覺化

就個人經驗,我認為R語言適合用於統計計算建模與視覺化,因為R語言語法更接近統計學中使用的符號和表達,因此在做統計建模時,相較Python寫起來更直觀,呈現結果也比較接近常見的樣式。另外,R的另一個強項就是「資料視覺化」,因為程式語言的高度彈性,讓R在進行資料視覺化時可以客製化加上任何想要的東西,並有參數可以調整位置、樣式、顏色、大小等等。

在使用上,R語言另一個最吸引我的點,就是若使用R Studio,有執行的變數與Data都會呈現在旁邊,可以點開看資料的樣態,也可以看變數究竟是什麼,這一點在操作上很方便。

R在統計跟資料視覺化有豐富的packages,列舉幾個常用的如下。

  • 資料清洗與處理:dplyr、tidyr(資料清洗與整理)、readr(數據讀取)、data.table(data frame以外的選擇,有許多好用的資料處理方法)
  • 資料視覺化:ggplot2、lattice
  • 統計建模與計量經濟學:stats(統計模型和函數)、lm、glm、plm(一些線性模型)
  • 時間序列分析:forecast、tseries
  • 機器學習:caret(分類和迴歸模型)、randomForest(隨機森林演算法)、rpart(決策樹演算法)、e1071(支持向量機演算法)、xgboost(梯度提升樹演算法)
  • 自然語言處理與文本數據:tm(文本挖掘與自然語言處理)、quanteda(文本分析)
  • 網絡爬蟲:rvest(網頁抓取與解析)

更多詳細介紹可參考「R語言常用好用套件紀錄」

Python—適合做深度學習、流程自動化

Python有大量用於資料科學的模組,如NumPy、Pandas、Matplotlib、Scikit-learn等。此外,Python還有非常多其他模組的支持,使其在各個領域都有強大的功能,例如機器學習、深度學習、NLP、網站開發、網路爬蟲、使用者介面等。

Python強大的地方在於廣大的資源,並且有相較R語言還要優秀的效能,例如,可以寫多端緒(multi-thread)、用GPU執行等。因為其方便性,愈來愈多人投入開發,因此在深度學習、AI領域中,Python是開發者的最佳選項之一,若是要做AI,Python是不二選擇。

Python 的資料分析模組:

  • 資料處理: NumPy、SciPy、Pandas
  • 資料視覺化: Matplotlib、Seaborn、 Plotly
  • 統計建模:Statsmodels、Prophet
  • 機器學習:SciKit-Learn、xgboost、lightgbm
  • 深度學習: TensorFlow、Pytorch、Keras
  • 自然語言與文本資料處理: NLTK、Gensim
  • 網站開發:Django、Flask
  • 網路爬蟲: Request、beatifulsoup、Scrapy
  • GUI:Tkinter、PyQt

.資源分享

R

  1. R 資料科學與統計:很棒的網頁,從R的安裝開始一步步教學,包括R語言的資料型態、函式、資料處理等。
  2. R for Data Science:這個網站是英文版的免費資源,中文版的可以參考中文版書籍(R資料科學),如果有一些R的基礎後,再看這本書會收穫滿滿。本書聚焦在tidyverse這個R套件集合,清楚了介紹了R語言進行資料分析的所有必要步驟,從資料輸入(import)、資料清洗(tidy)、資料轉換(transform)、視覺化(visualise)、建模(model)到利用R Markdown來撰寫詮釋(communicate)。推薦本書的原因,是他除了有詳細解釋tidyverse如何在實務上使用,也有提供練習題可以直接操作,一番學習下來,對於資料科學的流程便瞭若指掌!

資料來源:R for Data Science

資料來源:R for Data Science

Python

  1. ccClub:ccClub是一個每年都會招生的Python社群,只要繳保證金,若全程參加就可以退,是很適合Python初學者參加的課程。而它們也有網站和Medium,上面的連結是Medium,入門者可以從第0講開始看,是文字版的,一邊看一邊練習,省時又有效,可以快速掌握Python的基本概念和語言邏輯。
  2. Coursera商管程式設計:商管程式設計是台大的課程,這堂課很適合商管的人學Python,還有許多練習題可以做,照著課程走,除了學習基礎外,也可以學到如何用基礎程式設計實現一些有趣的功能,是學起來很有成就感的一門課!
  3. 蔡炎龍--成為python數據分析達人的第一門課:這個課程從Python基礎概念、資料處理(Pandas)到機器學習建模。我認為適合已經有基礎訓練的人,因為老師講的東西很多,課程數量較多,但是都蠻實用的,如果有掌握基礎功後再上課會比較上手。

.總結

除了上面的分享外,現今在生成式AI崛起下,學習程式、撰寫程式又多了一條捷徑,下一篇文章,我會介紹如何用AI幫助學習程式語言。其實,不管是R、Python或是其他程式語言,在網路上幾乎都有豐富的學習資源,學好的訣竅無他,便是不斷汲取新知與實作練習

留言
avatar-img
留言分享你的想法!
avatar-img
Fann的沙龍
67會員
6內容數
公務員是我的第一份正職,從高考榜首到離開公務員,跨領域轉職到資料科學家,公務員的經歷、所學、轉職的心路歷程等,在「關於公務員,我想說的是」專題中,一一跟大家分享
Fann的沙龍的其他內容
2023/08/09
前一篇貼文用大量文字講述了公務員生活,但身為一個資料科學家,不免手癢拿資料來分析分析。剛好在離職前,把自己過去一年半加班的紀錄(pdf)存了檔,來看看量化分析會得到什麼結果吧!
Thumbnail
2023/08/09
前一篇貼文用大量文字講述了公務員生活,但身為一個資料科學家,不免手癢拿資料來分析分析。剛好在離職前,把自己過去一年半加班的紀錄(pdf)存了檔,來看看量化分析會得到什麼結果吧!
Thumbnail
2023/08/08
在過去一年半的公務生涯中,我考取的是行政職系,在直轄市政府某局的二級機關工作,這篇想要分享公務員工作日常,以及盤點當今公務員的優缺點。
Thumbnail
2023/08/08
在過去一年半的公務生涯中,我考取的是行政職系,在直轄市政府某局的二級機關工作,這篇想要分享公務員工作日常,以及盤點當今公務員的優缺點。
Thumbnail
2023/08/03
在生成式AI與大型語言模型(Large Language Model, LLM)蓬勃發展下,有許多工具可以幫助我們學習與撰寫程式,這篇文章提供了實作範例與一些經驗,分享如何使用ChatGPT(免費的GPT-3.5)協助程式語言的學習,並且完成屬於自己的程式。
Thumbnail
2023/08/03
在生成式AI與大型語言模型(Large Language Model, LLM)蓬勃發展下,有許多工具可以幫助我們學習與撰寫程式,這篇文章提供了實作範例與一些經驗,分享如何使用ChatGPT(免費的GPT-3.5)協助程式語言的學習,並且完成屬於自己的程式。
Thumbnail
看更多
你可能也想看
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
既然決定參加職訓,就要能夠「對症下藥」,找最接近我想做的領域來上,因此當初直接以「數據分析」、「資料科學」等關鍵字搜尋,最後選擇了結合現今正行的AI相關課程。本篇將以課程為主題,分享職訓的感想。
Thumbnail
既然決定參加職訓,就要能夠「對症下藥」,找最接近我想做的領域來上,因此當初直接以「數據分析」、「資料科學」等關鍵字搜尋,最後選擇了結合現今正行的AI相關課程。本篇將以課程為主題,分享職訓的感想。
Thumbnail
為什麼要學Python? 我回不去了 全球工程師都在用! 根據 TIOBE調查 全球程式語言使用排名,Python連續好幾年第一名,代表最多人使用,選擇程式語言當然是要選最多人用的。 程式語言趨勢圖 Python可以做什麼? 這種事情問ChatGTP就好XD
Thumbnail
為什麼要學Python? 我回不去了 全球工程師都在用! 根據 TIOBE調查 全球程式語言使用排名,Python連續好幾年第一名,代表最多人使用,選擇程式語言當然是要選最多人用的。 程式語言趨勢圖 Python可以做什麼? 這種事情問ChatGTP就好XD
Thumbnail
Python是一款多功能且易於學習的程式語言,廣泛用於Web開發、數據分析和人工智能。學習起來有其挑戰性,但初學者可在短時間內體驗到成就感。市場對Python需求旺盛,成為職場上的重要技能。我們的課程提供從Python到PHP的全面學習,並重點教授實戰技巧如爬蟲和資料視覺化。現是投身編程的絕佳時機。
Thumbnail
Python是一款多功能且易於學習的程式語言,廣泛用於Web開發、數據分析和人工智能。學習起來有其挑戰性,但初學者可在短時間內體驗到成就感。市場對Python需求旺盛,成為職場上的重要技能。我們的課程提供從Python到PHP的全面學習,並重點教授實戰技巧如爬蟲和資料視覺化。現是投身編程的絕佳時機。
Thumbnail
嗨! 各位學員大家好,歡迎來到「🔒 Python實戰營 - Data Science 必修班」,為什麼會設計成必修班呢? 我們都知道AI的趨勢已經勢在必行,前往AI的道路上最基礎的就是資料處理、資料科學,AI模型訓練的過程中最忌諱的就是垃圾進、垃圾出,這不僅在AI模型適用,包括我們傳統的軟體開發
Thumbnail
嗨! 各位學員大家好,歡迎來到「🔒 Python實戰營 - Data Science 必修班」,為什麼會設計成必修班呢? 我們都知道AI的趨勢已經勢在必行,前往AI的道路上最基礎的就是資料處理、資料科學,AI模型訓練的過程中最忌諱的就是垃圾進、垃圾出,這不僅在AI模型適用,包括我們傳統的軟體開發
Thumbnail
我們都知道AI的模型訓練環節中, 最基礎也是最重要的一環就是「資料」了, 而「資料」要怎麼處理成訓練的養分也是一門重要的工程, 正好在Python的世界裡具有這麼一套神兵利器, 名為「Pandas」, 它是一個快速、強大、靈活且易於使用的開源數據分析和操作工具, 就讓我們好好的來認識一番吧! 乍聽
Thumbnail
我們都知道AI的模型訓練環節中, 最基礎也是最重要的一環就是「資料」了, 而「資料」要怎麼處理成訓練的養分也是一門重要的工程, 正好在Python的世界裡具有這麼一套神兵利器, 名為「Pandas」, 它是一個快速、強大、靈活且易於使用的開源數據分析和操作工具, 就讓我們好好的來認識一番吧! 乍聽
Thumbnail
千里之行始于足下。 大家好,我是茶桁,这里是我们《AI秘籍》的第一节,让我们先从Python来开始好好的打好基础。 第一堂课,我们先从最基础的Python特性开始,当然,还有一些基本语法。 上来就开始讲特性和语法,说明我们将会遗弃惯用的“环境搭建”等更基础的内容,那些内容网上已经很丰富了,一查
Thumbnail
千里之行始于足下。 大家好,我是茶桁,这里是我们《AI秘籍》的第一节,让我们先从Python来开始好好的打好基础。 第一堂课,我们先从最基础的Python特性开始,当然,还有一些基本语法。 上来就开始讲特性和语法,说明我们将会遗弃惯用的“环境搭建”等更基础的内容,那些内容网上已经很丰富了,一查
Thumbnail
2023年,對於資料分析師和科學家的需求持續增加,但目前市場上這些職位的人才卻相對不足。 究竟在資料領域中,哪些技能是最受歡迎的呢?
Thumbnail
2023年,對於資料分析師和科學家的需求持續增加,但目前市場上這些職位的人才卻相對不足。 究竟在資料領域中,哪些技能是最受歡迎的呢?
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News