任务链接:https://wx.zsxq.com/dweb/#/index/222248424811
1.基本文本处理技能
1.1分词的概念(分词的正向最大、逆向最大、双向最大匹配法)
正向最大匹配法:对句子从左到右进行扫描,尽可能地选择与词典中最长单词匹配的词作为目标分词,然后进行下一次匹配。
逆向最大匹配法:对句子从右到左进行扫描,尽可能地选择与词典中最长单词匹配的词作为目标分词,然后进行下一次匹配。
双向最大匹配法:将正向最大匹配算法和逆向最大匹配算法进行比较,从而确定正确的分词方法。
分词方法参考链接:https://blog.csdn.net/selinda001/article/details/79345072
1.2 词、字符频率统计(使用Python中的collections.Counter模块)
import jieba
from collections import Counter
data = '北京大学和清华大学是中国的顶尖大学'
print('单词统计')
words = list(jieba.cut(data))
print(Counter(words))
print('字符统计')
print(Counter(list(data)))