python课程第六周(函数和代码复用)——嵩天老师

本文链接：https://blog.csdn.net/zhanghongbin159/article/details/111107471

6.1集合类型及操作

6.1.1集合类型的定义

集合是多个元素的无序组合

集合类型与数学中的集合概念一致
集合元素之间无序，每个元素唯一，不存在相同元素
集合元素不可更改，不能是可变数据类型（因为可变可能与其他元素相同，从而不满足集合的唯一性）

不可变的类型：整数、浮点数、负数、字符串、元组。

集合用大括号{}表示，元素间用逗号分隔
建立集合类型用{}或set()
建立空集合类型，必须使用set()
集合之间无序

6.1.2集合操作符

集合间的操作：
在这里插入图片描述
6种操作符：

操作符及应用	描述
S \| T	返回一个新集合，包括在集合S和T中的所有元素
S - T	返回一个新集合，包括在集合S但不在T中的元素
S & T	返回一个新集合，包括同时在S和T中的元素
S ^ T	返回一个新集合，包括在集和S和T中的非相同元素
S <= T 或 S < T	返回True/False，判断S和T的子集关系
S >= T 或 S > T	返回True/False,判断S和T的包含关系

4种增强操作符：
在这里插入图片描述

6.1.3集合处理方法

在这里插入图片描述

实例：

6.1.4集合类型应用场景

包含关系比较
数据去重：集合类型所有元素无重复

6.1.4总结

在这里插入图片描述

6.2序列类型及操作

6.2.1序列类型定义

定义：序列是具有先后关系的一组元素

序列是一维元素向量，元素类型可以不同
类似数学元素序列：s0，s1，…，sn-1
元素间由序号引导，通过下标访问序列的特定元素

序列是一个基类类型：
在这里插入图片描述
序号定义：

6.2.2序列处理函数及方法

6个操作符：
在这里插入图片描述
实例：

5个函数和方法：

实例：

6.2.3元组类型及操作

元组是序列类型的一种扩展

元组是一种序列类型，一旦创建就不能被修改
使用小括号（）或tuple（）创建，元素间用逗号，分隔
可以使用或不使用小括号

元组集成序列类型的全部通用操作
元组继承了序列类型和全部通用操作
元组因为创建后不能修改，因此没有特殊操作
使用或不实用小括号

实例：
在这里插入图片描述

6.2.4列表类型及操作

列表是序列类型的一种扩展，十分常用

列表是一种序列类型，创建后可以随意被修改
使用[]或list（）创建，元素间用逗号，分隔
列表中各元素类型可以不同，无长度限制

实例：
在这里插入图片描述
列表的赋值语句并没有真正的生成一个新的对象，而是引用（指针）的传递。除非使用[]或者list（）

列表类型操作函数和方法：
在这里插入图片描述
实例：

实例：

列表功能实现：

6.2.5序列类型应用场景

元组用于元素不改变的应用场景，更多用于固定搭配场景
列表更加灵活，它是最常用的序列类型
最主要作用：表示一组有序数据，进而操作它们

元组类型数据保护：

如果不希望数据被程序所改变，转换成元组类型

6.2.6单元小结

在这里插入图片描述

6.3实例“基本统计值计算”问题分析

基本统计值

需求：给出一组数，对它们有个概要理解
该怎么做呢？
总个数：len（）
求和: for … in
平均值：求和/总个数
方差：各数据与平均数差的平方的和的平均数
中位数：排序，然后。。。奇数找最中间1个，偶数找中间2个取平均

实例讲解

def getNum():#不断接受用户的输入
	nums = []
	iNumStr = input("请输入数字（回车退出）：")
	while iNumStr != '':
		nums.append(eval(iNumStr))
		iNumStr = input('请输入数字（回车退出）：'）
	return nums；

def mean(numbers):#计算平均值
	s = 0.0
	for num in numbers:
		s = s + num
	return s / len(numbers)

def dev(numbers, mean):#计算方差
	sdev = 0.0
	for num in numbers:
		sdev = sdev + ( num - mean ) ** 2
	return pow(sdev / len(numbers) - 1), 0.5)

def median(numbers):#计算中位数
	sorted(numbers)
	size = len(numbers)
	if size % 2 == 0 :
		med = (numbers[size//2-1] + numbers[size//2])/2
	else:
		med = numbers[size//2]
	return med

举一反三
技术能力扩展

获取多个数据：从控制台获取多个不确定数据的方法
分隔多个函数：模块化设计方法
充分利用函数：充分利用Python提供的内置函数

6.4字典类型及操作

6.4.1字典类型定义

理解“映射”

映射一种键（索引）和值（数据）的对应

相当于把集合的默认索引下标变为了用户可自定义的类型。
键值对：键是数据索引的扩展
字典是键值对的集合，键值对之间无序
采用大括号{}或dict（）创建，键值对用冒号：表示

{<键1>:<值1>,<键2>:<值2>,....,<键3>:<值3>}

在这里插入图片描述
举例：

6.4.2字典处理函数及方法

在这里插入图片描述
举例：

注意：d.keys()和d.values()返回的类型是可迭代对象也就是可以用for或while遍历，但不能使用列表的一些操作来操作它。

在这里插入图片描述
举例：

功能默写：

6.4.3字典类型应用场景

映射的表达

映射无处不在，键值对无处不在
例如：统计数据出现的次数，数据是键，次数是值
最主要作用：表达键值对数据，进而操作它们

元素遍历

	for k in d:
		<语句块>

6.4.4单元小结

在这里插入图片描述

6.5jieba库的使用

6.5.1jieba库的概述

jieba是优秀的中文分词第三方库

中文文本需要通过分词获得单个的词语
jieba是优秀的中文分词第三方库，需要额外安装
jieba库提供了三中分词模式，最简单只需掌握一个函数

6.5.2jieba库的安装

pip install jieba
在这里插入图片描述

6.5.3jieba库的使用

jieba分词依靠中文词库

利用一个中文词库，确定汉字之间的关联概率
汉字间概率大的组成词组，形成分词结果
除了分词，用户还可以添加自定义的词组

6.5.4jieba库使用说明

jieba分词的三中模式
精确模式、全模式、搜索引擎模式

精确模式：把文本精确的切开，不存在冗余单词
全模式：把文本中所有可能的词语都扫描出来，有冗余
搜索引擎模式：在精确模式基础上，对长词再次切分

jieba库常用函数
在这里插入图片描述

6.6文本词频统计

6.6.1问题分析

需求：一篇文章，出现了哪些词？哪些词出现的最多？
该怎么做？
英文文本：Hamet 分析词频
https://python123.io/resources/pye/hamlet.txt
中文文本:三国演义

6.6.2《哈姆雷特》英文词频统计实例

def getText():
    txt = open('第六周自学课程/Hamlet.txt','r').read()
    txt = txt.lower()
    for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_‘{|}~':
        txt = txt.replace(ch,' ')
    return txt
hamletTxt = getText()
words = hamletTxt.split()
counts = {}
for word in words:
    counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x : x[1],reverse = True)
for i in range(10):
    word,count = items[i]
    print('{0:<10}{1:>5}'.format(word,count))

在这里插入图片描述

6.6.2《三国演义》英文词频统计实例

结果：
在这里插入图片描述
不符合预期

改造：

import jieba
txt = open('第六周自学课程/threekingdoms.txt','r',encoding='utf-8').read()
excludes  = {"将军","却说",'荆州','二人','不可','不能','如此'}
words = jieba.lcut(txt)
counts = {}
for word in words:
    if len(word) == 1:
        continue
    elif word == "诸葛亮" or word == "孔明曰":
        rword = '孔明'
    elif word == "关公" or word == '云长':
        rword = '关羽'
    elif word == '玄德' or word == '玄德曰':
        rword = '刘备'
    elif word == '孟德' or word == '丞相':
        rword = '曹操'
    else:
        rword = word
    counts[rword] = counts.get(rword,0) + 1
for word in excludes:
    del counts[word]
items = list(counts.items())
items.sort(key=lambda x : x[1], reverse = True)
for i in range(10):
    word, count = items[i]
    print("{:<10}{:>5}".format(word,count))