1. import的三种用法
方法一:
import <库名>
<库名>.<函数名>(<函数参数>)
或
import <库名1>,<库名2>
适合简单库名情况
方法二:
from <库名> import <函数名>
或
from <库名> import *
<函数名>(<函数参数>)
混合命名空间,适合极少库使用情况
方法三:
import <库名> as <库别名>
<库别名>.<函数名>(<函数参数>)
适合复杂库名情况
2. jieba中文分词库
2.1 jieba库概述
jieba是优秀的中文分词第三方库
- 对中文文本进行分词操作,产生包含产生词语的列表
- jieba是第三方库,需要额外安装
2.2 jieba库使用
函数 | 描述 |
---|---|
jieba.lcut(s) | 精确模式,返回字符串s对应的一个列表类型分词结果>>> jieba.lcut("中国是一个伟大的国家") ['中国', '是', '一个', '伟大', '的', '国家'] |
jieba.lcut(s,cut_all=True) | 全模式,返回字符串s对应的一个列表类型分词结果,存在冗余>>> jieba.lcut("中国是一个伟大的国家",cut_all = True) ['中国', '国是', '一个', '伟大', '的', '国家'] |
jieba.add_word(w) | 向分词词典增加新词w>>>jiba.add_word("蟒蛇语言") |
3. 计算生态编程
3.1 利用Python庞大的计算生态提高编程产量
- 除了Python语法外,要熟练掌握一批Python库的使用
- 对于某些”通用问题“,学会去寻找Python库
- http://pypi.org
3.2 围绕Python计算生态完成编程功能
- 结合Python计算生态中较重要的框架,完成编程任务
- 例如:结合PyTorch开展深度学习应用
- 例如:结合Scrapy框架编写爬虫应用
3.3 构建Python库,丰富Python计算生态
- 对于新的理解和认识,构架Python计算生态
- 底层可以利用C/C++等语言实现,给予Python接口
实例3:中文分词统计
程序需求
统计中文词语出现次数
- 以三国演义为例,统计出现的中文词语数量
- 按照一定标准输出,如出现次数等
- 需要解决中文分词问题,如:这是一门好课 -> 这是 一门 好课
- 输入:threekingdoms.txt
- 输出:出现超过50次的词语,不包括换行
# WordsCount.py
import jieba
f = open("threekingdoms.txt","r",encoding = "utf-8")
txt = f.read() # 把文件内容以文本形式读入
f.close()
ls = jieba.lcut(txt) # 中文分词产生结果保存为列表类型
d = {} # 创建一个空字典-键值对的集合
# 建立每个单词与出现次数的键值对
for w in ls:
d[w] = d.get(w,0) + 1
# 遍历结果,设置条件,打印输出
for k in d: # k为字典d中每一个键
if d[k] >= 50 and k != "\n":
print('"{}"出现{}次'.format(k,d[k]))