Python语言程序设计（嵩天）-第6周-组合数据类型_输入一组 10 个整数,存放在列表 numbers 中,计算这组数的和、平均值、方差。-CSDN博客

本文链接：https://blog.csdn.net/weixin_45775044/article/details/104412032

辅学内容

前课复习

本课概要

在这里插入图片描述

6.1集合类型及操作（标红）
6.2序列类型及操作（标红）
- 元祖类型
- 列表类型
6.3 实例9: 基本统计值计算
6.4字典类型及操作（标红）
6.5模块5: jieba库的使用
6.6实例10: 文本词频统计

方法论- Python三种主流组合数据类型的使用方法
实践能力-学会编写处理一组数据的程序
练习(可选)- 5道编程@Python123
测验- 10道单选+2道编程@Python123

- 6.1集合类型及操作

集合类型定义
集合操作符
集合处理方法
集合类型应用场景

小结：

集合使用{}和set()函数创建
集合间操作：交(&)、并(|)、差(-)、补(^)、比较(>=<)
集合类型方法：.add()、.discard()、.pop()等
集合类型主要应用于：包含关系比较、数据去重

6.1.1-集合类型定义

集合是多个元素的无序组合

集合类型与数学中的集合概念一致
集合元素之间无序，每个元素唯一，不存在相同元素
集合元素不可更改，不能是可变数据类型——为什么？
集合用大括号{} 表示，元素间用逗号分隔
建立集合类型用{} 或set()
建立空集合类型，必须使用set()

在这里插入图片描述

6.1.2-集合操作符

集合间操作
在这里插入图片描述

集合操作符
6个操作符
在这里插入图片描述

4个增强操作符
在这里插入图片描述

集合类型的定义：

在这里插入图片描述

6.1.3-集合处理方法

在这里插入图片描述

6.1.4-集合类型应用场景

包含关系比较：
在这里插入图片描述

数据去重：集合类型所有元素无重复
在这里插入图片描述

- 6.2序列类型及操作

目录：
-序列类型定义
-序列处理函数及方法
-元组类型及操作
-列表类型及操作
-序列类型应用场景

小结：

序列是基类类型，扩展类型包括：字符串、元组和列表
元组用()和tuple()创建，列表用[]和set()创建
元组操作与序列操作基本相同
列表操作在序列操作基础上，增加了更多的灵活性

6.2.1 序列类型定义

序列是具有先后关系的一组元素

序列是一维元素向量，元素类型可以不同
类似数学元素序列：s0, s1, … , sn-1
元素间由序号引导，通过下标访问序列的特定元素

序列是一个基类类型
在这里插入图片描述

序号的定义：
在这里插入图片描述

6.2.2 序列处理函数及方法

序列类型通用操作符
6个操作符
在这里插入图片描述

序列类型操作实例
在这里插入图片描述

序列类型通用函数和方法
5个函数和方法：
在这里插入图片描述

序列类型操作实例
在这里插入图片描述

6.2.3 元组类型及操作

元组类型定义元组是序列类型的一种扩展

元组是一种序列类型，一旦创建就不能被修改
使用小括号() 或tuple() 创建，元素间用逗号, 分隔
可以使用或不使用小括号

在这里插入图片描述

元组类型操作：
元组继承序列类型的全部通用操作

元组继承了序列类型的全部通用操作
元组因为创建后不能修改，因此没有特殊操作
使用或不使用小括号

在这里插入图片描述

6.2.4 列表类型及操作

列表类型定义：
列表是序列类型的一种扩展，十分常用

列表是一种序列类型，创建后可以随意被修改
使用方括号[] 或list() 创建，元素间用逗号, 分隔
列表中各元素类型可以不同，无长度限制

在这里插入图片描述

列表类型操作函数和方法
在这里插入图片描述

列表类型操作：
在这里插入图片描述

列表类型操作函数和方法：
在这里插入图片描述

列表类型操作：
在这里插入图片描述

列表功能默写：

在这里插入图片描述

6.2.5 序列类型应用场景

数据表示：元组和列表

元组用于元素不改变的应用场景，更多用于固定搭配场景
列表更加灵活，它是最常用的序列类型
最主要作用：表示一组有序数据，进而操作它们

元素遍历
在这里插入图片描述

数据保护

如果不希望数据被程序所改变，转换成元组类型

在这里插入图片描述

- 6.3 实例9: 基本统计值计算

6.3.1 问题分析

基本统计值

需求：给出一组数，对它们有个概要理解
该怎么做呢？
总个数、求和、平均值、方差、中位数…

基本统计值

总个数：len()
求和：for … in
平均值：求和/总个数
方差：各数据与平均数差的平方和的平均数
中位数：排序，然后… 奇数找中间1个，偶数找中间2个取平均

6.3.2 实例讲解

基本统计值计算

获取多数据输入
通过函数分隔功能

#CalStatisticsV1.py
def getNum():       #获取用户不定长度的输入
    nums = []
    iNumStr = input("请输入数字(回车退出): ")
    while iNumStr != "":
        nums.append(eval(iNumStr))
        iNumStr = input("请输入数字(回车退出): ")
    return nums

def mean(numbers):  #计算平均值
    s = 0.0
    for num in numbers:
        s = s + num
    return s / len(numbers)

def dev(numbers, mean): #计算方差
    sdev = 0.0
    for num in numbers:
        sdev = sdev + (num - mean)**2
    return pow(sdev / (len(numbers)-1), 0.5)

def median(numbers):    #计算中位数
    sorted(numbers)
    size = len(numbers)
    if size % 2 == 0:
        med = (numbers[size//2-1] + numbers[size//2])/2
    else:
        med = numbers[size//2]
    return med

n =  getNum() #主体函数
m =  mean(n)
print("平均值:{},方差:{:.2},中位数:{}.".format(m, dev(n,m),median(n)))

6.3.3 举一反三

技术能力扩展

获取多个数据：从控制台获取多个不确定数据的方法
分隔多个函数：模块化设计方法
充分利用函数：充分利用Python提供的内置函数

- 6.4字典类型及操作

字典类型定义
字典处理函数及方法
字典类型应用场景

小结：

映射关系采用键值对表达
字典类型使用{}和dict()创建，键值对之间用:分隔
d[key] 方式既可以索引，也可以赋值
字典类型有一批操作方法和函数，最重要的是.get()

6.4.1-字典类型定义

理解“映射”

映射是一种键(索引)和值(数据)的对应

在这里插入图片描述

字典类型是“映射”的体现

键值对：键是数据索引的扩展
字典是键值对的集合，键值对之间无序
采用大括号{}和dict()创建，键值对用冒号: 表示
{<键1>:<值1>, <键2>:<值2>, … , <键n>:<值n>}

字典类型的用法
在字典变量中，通过键获得值
<字典变量> = {<键1>:<值1> , … , <键n>:<值n>}
<值> = <字典变量>[<键>]
<字典变量>[<键>] = <值>
[ ] 用来向字典变量中索引或增加元素

字典类型定义和使用
在这里插入图片描述

6.4.2-字典处理函数及方法

字典类型操作函数和方法
在这里插入图片描述

字典类型操作
在这里插入图片描述

字典类型操作函数和方法
在这里插入图片描述

字典类型操作
在这里插入图片描述

字典功能默写
在这里插入图片描述

6.4.3-字典类型应用场景

映射的表达
-映射无处不在，键值对无处不在
-例如：统计数据出现的次数，数据是键，次数是值
-最主要作用：表达键值对数据，进而操作它们

元素遍历
for k in d :
<语句块>

在这里插入图片描述

- 6.5模块5: jieba库的使用

6.5.1 jieba库基本介绍

jieba库概述
jieba是优秀的中文分词第三方库
-中文文本需要通过分词获得单个的词语
-jieba是优秀的中文分词第三方库，需要额外安装
-jieba库提供三种分词模式，最简单只需掌握一个函数

jieba库的安装
(cmd命令行) pip install jieba
在这里插入图片描述

jieba分词的原理
jieba分词依靠中文词库

利用一个中文词库，确定中文字符之间的关联概率
中文字符间概率大的组成词组，形成分词结果
除了分词，用户还可以添加自定义的词组

6.5.2 jieba库使用说明

jieba分词的三种模式
精确模式、全模式、搜索引擎模式

精确模式：把文本精确的切分开，不存在冗余单词
全模式：把文本中所有可能的词语都扫描出来，有冗余
搜索引擎模式：在精确模式基础上，对长词再次切分

jieba库常用函数：
在这里插入图片描述

在这里插入图片描述

jieba分词要点：
jieba.lcut(s)

- 6.6实例10: 文本词频统计

6.6.1 "文本词频统计"问题分析

文本词频统计

需求：一篇文章，出现了哪些词？哪些词出现得最多？
该怎么做呢？
英文文本➡️中文文本
英文文本：Hamet分析词频https://python123.io/resources/pye/hamlet.txt
中文文本：《三国演义》分析人物https://python123.io/resources/pye/threekingdoms.txt

6.6.2 "Hamlet英文词频统计"实例讲解

文本去噪及归一化
使用字典表达词频

#CalHamletV1.py
def getText():
    txt = open("hamlet.txt", "r").read()
    txt = txt.lower()
    for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_‘{|}~':
        txt = txt.replace(ch, " ")   #将文本中特殊字符替换为空格
    return txt

hamletTxt = getText()
words  = hamletTxt.split()
counts = {}
for word in words:			
    counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True) 
for i in range(10):
    word, count = items[i]
    print ("{0:<10}{1:>5}".format(word, count))

在这里插入图片描述

6.6.3 "《三国演义》人物出场统计"实例讲解(上)

中文文本分词
使用字典表达词频

#CalThreeKingdomsV1.py
import jieba
txt = open("threekingdoms.txt", "r", encoding='utf-8').read()
words  = jieba.lcut(txt)
counts = {}
for word in words:
    if len(word) == 1:
        continue
    else:
        counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True) 
for i in range(15):
    word, count = items[i]
    print ("{0:<10}{1:>5}".format(word, count))

在这里插入图片描述

6.6.3 "《三国演义》人物出场统计"实例讲解(上)

《三国演义》人物出场统计
将词频与人物相关联，面向问题
词频统计➡️人物统计

中文文本分词
使用字典表达词频
扩展程序解决问题

#CalThreeKingdomsV2.py
import jieba
excludes = {"将军","却说","荆州","二人","不可","不能","如此"}
txt = open("threekingdoms.txt", "r", encoding='utf-8').read()
words  = jieba.lcut(txt)
counts = {}
for word in words:
    if len(word) == 1:
        continue
    elif word == "诸葛亮" or word == "孔明曰":
        rword = "孔明"
    elif word == "关公" or word == "云长":
        rword = "关羽"
    elif word == "玄德" or word == "玄德曰":
        rword = "刘备"
    elif word == "孟德" or word == "丞相":
        rword = "曹操"
    else:
        rword = word
    counts[rword] = counts.get(rword,0) + 1
for word in excludes:
    del counts[word]
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True) 
for i in range(10):
    word, count = items[i]
    print ("{0:<10}{1:>5}".format(word, count))