DataWhale-Python基础-8.集合
1.集合的创建
- 先创建对象再加入元素
- 在创建空集合的时候只能用s=set(),因为s={}创建的是空字典
- 直接把一对元素用花括号括起来{元素1,元素2,…,元素N}
- 重复的元素在set中会被自动过滤。
- 使用set(value)工厂函数,把列表或元组转换成集合。
#空集合的创建与添加
basket = set() # 创建空集合不能用{}因为会被认为是字典,所有用set()
basket.add('apple')
basket.add('banana')
basket
# {'apple', 'banana'}
#非空集合的创建
basket = {'apple','banana','orange','watermelon','pineapple'}
basket
# {'apple', 'banana', 'orange', 'pineapple', 'watermelon'}
#利用工厂函数set()来将列表或元组转换成集合
a = set('abcdeefg')
a
# {'a', 'b', 'c', 'd', 'e', 'f', 'g'}
b = set(('Kobe','Yao','Duncan','James','Iverson'))
b
# {'Duncan', 'Iverson', 'James', 'Kobe', 'Yao'}
c = set(['Kobe','Yao','Duncan','James','Iverson'])
c
# {'Duncan', 'Iverson', 'James', 'Kobe', 'Yao'}
我们可以发现集合有两个特点:无序和唯一
因为集合是无序的,所以我们没有索引和切片操作,也没有keys来获取集合中的元素的值,但我们能判断一个元素是否在集合中。
2.访问集合中的值
- len()内建函数可以获取集合的长度
- 可以用for循环读出集合内的值
- 可以用in或not in判断一个元素是否在集合中
#用len()来获得一个集合的长度
print(len(b))
#读取出b集合里的每一个元素
for item in b:
print(item)
#判断Kobe和Jordan是否在集合中
print('Kobe' in b)
print('Jordan' in b)
#5
#Iverson
#Kobe
#Yao
#Duncan
#James
#True
#False
3.集合的内置方法
- set.add(element):给集合添加元素的方法。(若集合中已有该元素,则不执行任何操作)
- set.update(set):用于修改当前集合,可以添加新的元素或集合到当前的集合中。(同样的,若有重复的值则会被忽略)
- set.remove(element):移除指定的元素。若该元素不存在会报错
- set.discard(value):也是用于移除某一指定的元素。但与remove不同的是若该元素不存在于集合中,并不会报错。
- set.pop():随机移除一个集合中的元素。
# add方法
set1 = set()
set1.add("Jay")
set1.add('JJ')
set1.add('Eason')
set1
#{'Eason', 'JJ', 'Jay'}
#update方法
set1.update(set(['westlife','Mayday']))
set1
# {'Eason', 'JJ', 'Jay', 'Mayday', 'westlife'}
#remove,discard和pop方法
set1.remove('westlife')
set1
# {'Eason', 'JJ', 'Jay', 'Mayday'}
set1.discard('Lala')
set1.pop()
#'Eason'
因为集合的无序性和唯一性,我们可以做数学意义上的集合操作:
- set.intersection(set1,set2):返回两个集合的交集
- set1 & set2:返回两个集合的交集
- set.intersection_updata(set1,set2)交集,在原始的集合上移除不重叠的元素。
#交集的例子
a = set('abracadabra')
b = set('alacazam')
print(a) # {'r', 'a', 'c', 'b', 'd'}
print(b) # {'c', 'a', 'l', 'm', 'z'}
#intersection方法和&
c = a.intersection(b)
print(c) # {'a', 'c'}
print(a & b) # {'c', 'a'}
print(a) # {'a', 'r', 'c', 'b', 'd'}
#intersection_update方法
a.intersection_update(b)
print(a) # {'a', 'c'}
- set.union(set1,set2):返回两个集合的并集
- set1 | set2:返回两个集合的并集
#union方法和|
a.union(b)
a | b
#{'a', 'b', 'c', 'd', 'l', 'm', 'r', 'z'}
- set.difference(set):返回两个集合的差集
- set1 - set2:返回两个集合的差集
- set.difference_update(set):集合的差集,直接在原来的集合中移除元素,没有返回值。
#difference方法和 -
a.difference(b)
a - b
#{'b', 'd', 'r'}
#difference_update方法
a.difference_update(b)
a
#{'b', 'd', 'r'}
- set.symmetric_difference(set):返回集合的异或
- set1 ^ set2:与上述等价
- set.symmetric_difference_updata(set):移除当前集合中在另外一个集合指定集合相同的元素,并将另外一个指定集合中的不同的元素插入到当前的集合中。
#symmeric_difference方法和^
a.symmetric_difference(b)
a^b
#{'b', 'd', 'l', 'm', 'r', 'z'}
#symmertric_difference_update方法
a.symmetric_difference_update(b)
a
#{'a', 'b', 'c', 'd', 'r'}
- set.issubset(set):判断集合是不是被其他集合包含,如果是返回True,反之返回False
- set1 <= set2:与上面的作用相同
- set.issuperset(set):判断集合是否包含其他集合,若是返回True,反之False。
- set1 >= set2:与issuperset效果一样
- set.isdisjoint(set):用于判断两个集合是否不相交,如果是不相交返回True,反之返回False。
set1 = {'a','b','c','d'}
set2 = {'a','b','c'}
print(set1.issuperset(set2))
print(set1 >= set2)
print(set1.issubset(set2))
print(set2 >= set1)
#True
#True
#False
#False
set1.isdisjoint(set2)
#False
4.集合的转换
#例子
se = set(range(4))
li = list(se)
tu = tuple(se)
print(se, type(se)) # {0, 1, 2, 3} <class 'set'>
print(li, type(li)) # [0, 1, 2, 3] <class 'list'>
print(tu, type(tu)) # (0, 1, 2, 3) <class 'tuple'>
5.不可变集合
Python 提供了不能改变元素的集合的实现版本,即不能增加或删除元素,类型名叫frozenset。需要注意的是frozenset仍然可以进行集合操作,只是不能用带有update的方法。
- frozenset([iterable]) 返回一个冻结的集合,冻结后集合不能再添加或删除任何元素。
#例子
a = frozenset(range(10)) # 生成一个新的不可变集合
print(a)
# frozenset({0, 1, 2, 3, 4, 5, 6, 7, 8, 9})
b = frozenset('lsgogroup')
print(b)
# frozenset({'g', 's', 'p', 'r', 'u', 'o', 'l'})
练习题
1.怎么表示只包含⼀个数字1的元组。
a = (1,)
type(a)
# tuple
2.创建一个空集合,增加 {‘x’,‘y’,‘z’} 三个元素。
x =set() #创建空集合
x.add('x')
x.add('y')
x.add('z')
x
#{'x', 'y', 'z'}
3.列表[‘A’, ‘B’, ‘A’, ‘B’]去重。
#第一种方法
list1 = ['A','B','A','B']
new_list1 = list(set(list1))
new_list1
#['A', 'B']
#第二种方法
list1 = ['A','B','A','B']
new_list = []
for item in list1:
if item not in new_list:
new_list.append(item)
new_list
#['A', 'B']
4.求两个集合{6, 7, 8},{7, 8, 9}中不重复的元素(差集指的是两个集合交集外的部分)。
a = {6,7,8}
b = {7,8,9}
(a-b) | (b-a)
# {6,9}
5.求{‘A’, ‘B’, ‘C’}中元素在 {‘B’, ‘C’, ‘D’}中出现的次数。
a = {'A', 'B', 'C'}
b = {'B', 'C', 'D'}
count = 0
for item in a:
if item in b:
count += 1
count
# 2