又轟轟地結束第二個月的課程。這一個月的課程聚焦在如何處理 Python 的資料。
字串是非常非常常見的資料結構,常見到什麼程度?大概是我上班路上會遇到的紅燈機會那麼高吧 XD
介紹幾個好用的字串方法:
find
:這可以找出特定字元的位置 (index)。len
:計算字串的長度。strip
:去除字串前後的空白。他還有兄弟 lstrip
跟 rstrip
,顧名思義就是只去除左邊或右邊的空白。lower
或 upper
:把字串變成全部小寫或全部大寫。replace("old", "new")
:用新字元替換舊字元。startswith
和 endswith
:判斷字串是否使用特定的前綴或後綴。以下為簡單的範例:
text = "X-DSPAM-Confidence: 0.8475"
pos = text.find(' ')
textLen = len(text)
print(pos, textLen)
print(text[pos : textLen].strip())
我們可以用 Python 來讀取文件,以下範例為使用課程提供之純文字文件作範例,如果想自己練習的話,可以自己建一支 txt 檔案。
open
:開啟一個文件,可以加入第二個參數,比如 "r" 為唯讀、"w" 為編輯 (會從開啟處覆蓋掉舊內容)、"a" 為續寫。read
:檔案開啟後,逐行讀取檔案。readline
也可以讀取整行資料,但他只讀取一行,read
是逐行讀完整個檔案。以下為簡單範例,會逐行印出去除左右空白且轉為大寫的字串:
fname = input("Enter file name: ")
fh = open(fname)
for line in fh:
lh = line.strip().upper()
print(lh)
用 JavaScript 的思維想就是陣列,基本操作跟字串大差不差,但列表中的元素可以直接修改,字串不行。
lst["start" : "end"]
:索引或裁切,這個同樣適用於字串。max
、min
、sum
:取列表的最大、最小或值得總和。append
、insert
:前者為向列表後插入一個元素;後者接受兩個參數,第一個是插入位置,第二個是插入元素。pop
、remove
:前者不加參數時會直接從列表後方取出最後一個元素並從原列表中山出該元素,帶參數則是取出指定位置參數;後者會去搜尋整個列表符合參數的部分,但僅會刪除遇到第一個符合的部分。index
:可以返回元素索引值,也可以用在字串。lst.sort()
或 sorted(lst)
:前者是對原列表做排序,後者是返回一個排序後的列表。reverse
:反轉列表。以下為簡單範例,把檔案中的單字逐一送入變成列表:
fh = open('romeo.txt')
lst = list()
for line in fh:
subLst = line.strip().split()
for i in range(len(subLst)):
lst.append(subLst[i])
lst = list(set(lst))
lst.sort()
print(lst)
用 JavaScript 的方式講,就是物件,同樣可以用 { }
宣告或是用 dict()
。
字典有趣的地方是每個元素都由鍵 (key) 與值 (value) 組成,這可以讓我們更靈活地去操縱比較複雜的資料。我們可以用 dic["key"]
的方式去取出存在某個 key 下面的值來使用,也可以用這個方法來輕鬆新增或修改。接著下面為常用的字典方法。
keys
:返回所有鍵。values
:返回所有值。items
:一個一個返回鍵值對。clear
:清空字典。get
:獲取指定 key 的值,如果沒有這個 key 就給他默認值 (詳見範例)。以下為一個簡單的範例,用來找出發信最多的信箱以及其次數:
fh = open('mbox-short.txt')
dic = dict()
maxNum = 0
maxEmail = ''
for line in fh:
if not line.startswith('From'):
continue
elif line.startswith('From:'):
continue
else:
words = line.strip().split()
dic[words[1]] = dic.get(words[1], 0) + 1
for i in dic:
if dic[i] > maxNum:
maxNum = dic[i]
maxEmail = i
print(maxEmail, maxNum)
我在 TypeScript 的文章中說過,元組是一個長得很像陣列 (在 Python 叫列表) 但又比陣列嚴苛的東西。
寫過 TypeScript 的都知道原組和陣列都是用 [ ]包起來,但 Python 中的元組則是用 ( ) 包起來。
元組最大的特性就是不可修改,這種只能讀而無法修改的特性可以讓我們放心儲存那些怕更動到的資料。而其實我們在前面字典中已經有稍微接觸過元組了,要不要猜猜看?
答案就是 items
方法!
上面有講到 items
會回傳一組組的 key-value pair,這個一組組就是元組的格式。
以下為一個簡單的範例,這裡在最後用 items
把字典拆成元組並透過 sorted
進行排序:
fh = open('mbox-short.txt')
dic = dict()
for line in fh:
if not line.startswith('From'):
continue
elif line.startswith('From:'):
continue
else:
colonIndex = line.index(':')
hr = line[colonIndex - 2 : colonIndex]
dic[hr] = dic.get(hr, 0) + 1
ls = sorted(dic.items())
for k, v in ls:
print(k, v)