Python提供集合做為其資料結構,它就如同高中數學所學集合的概念,集合的內容一般來說是具有某種特性的事物的整體,例如考試分數及格的群體、數字1到100內的所有奇數、球箱內所有球的顏色等。因此,在一個集合中,每個元素的地位都是相同且無序,並且只能出現一次,集合和集合之間,也可以進行交集、聯集、差集等的操作。集合的元素必須是不可變的(immutable),也就是當該元素的物件被創造出來後,值沒辦法被改變,若修改其值會創造出一個新的物件,例如整數(int)、浮點數(float)、字串(string)、元組(tuple)等;可變的(mutable)物件則不能做為集合的元素,例如串列(list)、字典(dict)、集合(set)等。
集合
集合可以使用大括號「{ }」或是set()函數來建立。使用大括號時和字典類似,但只有鍵,沒有值,例如以下建立一個台灣直轄市的集合:
cities_set = {"台北市", "新北市", "桃園市", "台中市", "台南市", "高雄市"}
print(cities_set)
print(type(cities_set))
執行結果:
{'高雄市', '台北市', '台中市', '桃園市', '台南市', '新北市'}
<class 'set'>
前面提過集合中的元素只能出現一次,重複出現的元素會被自動刪除,例如:
cities_set = {"台北市", "新北市", "新北市", "桃園市", "台中市", "台南市", "高雄市"}
print(cities_set)
執行結果:
{'台中市', '台北市', '高雄市', '桃園市', '台南市', '新北市'}
使用set()函數建立集合的方式如下:
str_set = set("This is my marathon Python challenge.")
print(str_set)
執行結果,注意重複的字母只會出現一次:
{'o', 'r', 's', 'y', 'P', 'e', 'm', 'i', '.', 'n', 't', 'a', 'c', ' ', 'l', 'g', 'h', 'T'}
list_set = set(["台北市", "新北市", "桃園市", "台中市", "台南市", "高雄市"])
print(list_set)
執行結果:
{'新北市', '高雄市', '台北市', '台中市', '台南市', '桃園市'}
dict_set = set({"台北市": 2531659, "新北市": 4011586, "桃園市": 2272452, "台中市": 2814422, "台南市": 1863435, "高雄市": 2746939})
print(dict_set)
執行結果:
{'台中市', '台南市', '台北市', '新北市', '桃園市', '高雄市'}
tuple_set = set(("台北市", "新北市", "桃園市", "台中市", "台南市", "高雄市"))
print(tuple_set)
執行結果:
{'新北市', '高雄市', '台北市', '台中市', '台南市', '桃園市'}
空集合
空集合的建立方式只能使用set()函數,若使用大括號則和建立空字典的方式相同,會被Python認為是字典的資料型態。
empty_set = {}
print(type(empty_set))
empty_set = set()
print(type(empty_set))
執行結果:
<class 'dict'>
<class 'set'>
增加與刪除集合元素
集合元素的內容是不可變的,但集合的元素可以被增加或刪除。
cities_set.add("新竹市")
print(cities_set)
執行結果:
{'台中市', '新竹市', '高雄市', '桃園市', '新北市', '台南市', '台北市'}
cities_set.remove("新竹市")
print(cities_set)
執行結果:
{'台中市', '台北市', '高雄市', '新北市', '桃園市', '台南市'}
集合的操作(聯集、交集、差集、對稱差集)
聯集(Union)
假設有A、B兩個集合,若想取得A、B兩集合內的所有元素可以使用聯集,Python的運算子符號為「|」。例如以下例子:A集合是3的倍數、B集合是5的倍數,則A、B聯集為3的倍數或5的倍數。
A_set = {3, 6, 9, 12, 15}
B_set = {5, 10, 15}
AB_union = A_set | B_set
print(AB_union)
執行結果:
{3, 5, 6, 9, 10, 12, 15}
交集(Intersection)
假設有A、B兩個集合,若想取得A、B兩集合內共同存在的元素可以使用交集,Python的運算子符號為「&」。承上範例,A、B聯集為3與5的公倍數。
A_set = {3, 6, 9, 12, 15}
B_set = {5, 10, 15}
AB_intersection = A_set & B_set
print(AB_intersection)
執行結果:
{15}
差集(difference)
假設有A、B兩個集合,若想取得屬於A集合但不屬於B集合的元素可以使用差集,Python的運算子符號為「-」。承上範例,A、B差集為3的倍數但不為5的倍數。
A_set = {3, 6, 9, 12, 15}
B_set = {5, 10, 15}
AB_difference = A_set - B_set
print(AB_difference)
執行結果:
{9, 3, 12, 6}
對稱差集(symmetric difference)
假設有A、B兩個集合,若想取得屬於A集合或是B集合的元素,但排除同時屬於A集合和B集合的元素,可以使用對稱差集,Python的運算子符號為「^」。承上範例,A、B的對稱差集為3的倍數或5的倍數,但不為3和5的公倍數。
A_set = {3, 6, 9, 12, 15}
B_set = {5, 10, 15}
AB_sym_difference = A_set ^ B_set
print(AB_sym_difference)
執行結果:
{3, 5, 6, 9, 10, 12}
子集合(subset)與父集合(superset)
假設有A、B兩個集合,若A集合的所有元素都存在於B集合,則稱A集合為B集合的子集合、B集合為A集合的父集合,Python用來判斷是否為子集合的函數為issubset()、用來判斷是否為父集合的函數為issuperset(),若相等則傳回True、不相等則傳回False。
A_set = {3, 6, 9, 12, 15}
B_set = {3, 5, 6, 9, 10, 12, 15}
print(f"Is A_set a subset of B_set? {A_set.issubset(B_set)}")
print(f"Is B_set a superset of A_set? {B_set.issuperset(A_set)}")
執行結果:
Is A_set a subset of B_set? True
Is B_set a superset of A_set? True
相等集合
Python用來判斷兩集合是否相等的運算子符號為「==」,若相等則傳回True、不相等則傳回False。
A_set = {3, 6, 9, 12, 15}
B_set = {3, 5, 6, 9, 10, 12, 15}
C_set = {3, 6, 9, 12, 15}
print(f"Is A_set the same as B_set? {A_set == B_set}")
print(f"Is A_set the same as C_set? {A_set == C_set}")
執行結果:
Is A_set the same as B_set? False
Is A_set the same as C_set? True
使用for迴圈迭代
集合可以使用for迴圈迭代,但必須記得集合是無序的資料結構,不能使用索引值來取值。
for city in cities_set:
print(city, end=" ")
執行結果:
高雄市 桃園市 台南市 新北市 台北市 台中市
集合生成
集合和for迴圈結合,可以簡潔的方式產生元組,例如前面例子的A_set,我們手動鍵入1到15範圍內的3的倍數,其實也可以這樣產生:
A_set = {num for num in range(1, 16) if num % 3 == 0}
print(A_set)
執行結果:
{3, 6, 9, 12, 15}
程式範例