NLP实践-Task2

最新推荐文章于 2022-07-01 15:29:12 发布

伽音

最新推荐文章于 2022-07-01 15:29:12 发布

阅读量358

点赞数

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/zh11403070219/article/details/88169237

版权

本文介绍了自然语言处理中的基本文本处理技能，包括正向、逆向和双向最大匹配法的分词概念，以及词、字符频率统计。接着讲解了语言模型中的n-gram模型（unigram、bigram、trigram）和词袋模型的应用。最后讨论了基于词袋模型的文本矩阵化方法。

摘要由CSDN通过智能技术生成

任务链接：https://wx.zsxq.com/dweb/#/index/222248424811

1.基本文本处理技能

1.1分词的概念（分词的正向最大、逆向最大、双向最大匹配法）
正向最大匹配法：对句子从左到右进行扫描，尽可能地选择与词典中最长单词匹配的词作为目标分词，然后进行下一次匹配。
逆向最大匹配法：对句子从右到左进行扫描，尽可能地选择与词典中最长单词匹配的词作为目标分词，然后进行下一次匹配。
双向最大匹配法：将正向最大匹配算法和逆向最大匹配算法进行比较，从而确定正确的分词方法。
分词方法参考链接：https://blog.csdn.net/selinda001/article/details/79345072
1.2 词、字符频率统计（使用Python中的collections.Counter模块）

import jieba
from collections import Counter

data = '北京大学和清华大学是中国的顶尖大学'

print('单词统计')
words = list(jieba.cut(data))
print(Counter(words))

print('字符统计')
print(Counter(list(data)))