NLP
超级圈
这个作者很懒,什么都没留下…
展开
-
TF-IDF:自动提取关键词
目录:一、TF-IDF基础知识 1.TF-IDF 2.举例介绍 二、TF-IDF调用两个方法 1.CountVectorizer 2.TfidfTransformer 3.别人示例 一、TF-IDF基础知识1.TF-IDFTF-IDF(Term Frequency-InversDocumentFrequency)是一种常用于信息处理和数...转载 2019-06-20 12:08:00 · 11692 阅读 · 3 评论 -
贪心NLP——jieba分词、停用词过滤、词的标准化,词袋模型
基于结巴(jieba)的分词。Jieba是最常用的中文分词工具import jiebaset_list=jieba.cut('中南财经政法大学在茶山刘',cut_all=False)print('/'.join(set_list))#jieba里没有茶山刘这个词,把它加进去jieba.add_word('茶山刘')set_list=jieba.cut('中南财经政法大学在茶...原创 2019-09-11 23:21:39 · 2287 阅读 · 0 评论 -
拼写纠错
词典库#list查找的复杂度为线性复杂度#转换为set,复杂度一般为log nvocab=set([line.rstrip() for line in open('vocab.txt')])print(vocab){'rts', 'tactual', 'unavoidably', 'Interstate', 'Compared', 'vulcanized', 'Shakya', ...原创 2019-09-13 08:58:31 · 664 阅读 · 2 评论 -
词频统计
编写程序统计一个英文文本文件中单词的出现次数,并将出现次数最多(次数排名前10)的单词和它们的出现次数按降序显示。1. 使用一个字典来存储包含了单词和它的次数的条目;2. 统计单词是不考虑大小写的,例如:认为Good与good是一个单词;第一步:读取文件通过txt.lower()函数将字母变成小写英文单词的分割可以是空格、标点符号或者特殊符号。为了统一分割方式,将各种特殊...原创 2019-09-05 23:32:06 · 10451 阅读 · 2 评论