![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
文章平均质量分 95
zczczcc
小张小张自有主张
展开
-
CountVectorizer类和TfidfVectorizer类
sklearn中一般使用CountVectorizer和TfidfVectorizer这两个类来提取文本特征CountVectorizer类CountVectorizer 类会将文本中的词语转换为词频矩阵。也就是通过分词后将所有的文档中的全部词作为一个字典(就是类似于新华字典这种)。然后将每一行的词用0,1矩阵来表示。并且每一行的长度相同,长度为字典的长度,在词典中存在,置为1,否则,为0。参数解释from sklearn.feature_extraction.text import CountVe原创 2021-06-29 20:42:08 · 813 阅读 · 0 评论 -
哈工大停用词表+中文停用词表
内容:———》),)÷(1-”,),=(:→℃ 和*一一~~~~'。 『。一./- 』=”【[*]}>[⑤]][①D]c]昉*//[][②e][②g]= {},也 'A[①⑥][②B] [①a][④a][①③][③h]③]1。 - [②b]'' ××× [①⑧]0:2 = [[⑤b][②c] [④b][②③][③a][④c][①⑤][①⑦][①g]∈[ [①⑨][①④][①.原创 2020-12-01 11:46:23 · 1484 阅读 · 33 评论 -
文本挖掘和可视化案例:基于文本内容的垃圾短信分类
基于文本内容的垃圾短信分类总体流程数据展示数据抽取数据预处理数据清洗去除空格x序列x序列文本去重分词中文分词添词典去停用词去停用词绘制词云文本向量的表示One-Hot表达TF-IDF权重策略文本分类实例模型训练及评价二级目录三级目录总体流程数据展示观察数据,请思考:建模前需要对文本数据做哪些处理?需要怎么评价模型的好坏?数据抽取随机抽取上文的2W条文本处理后的数据的80%作为训练样本,其余作为测试集样本。数据预处理数据清洗去除空格x序列x序列即银行账户;电话、固话、QQ原创 2020-11-23 13:42:31 · 3815 阅读 · 16 评论 -
自然语言处理+文本分类
自然语言处理学习笔记一级目录二级目录三级目录一级目录二级目录三级目录原创 2020-11-14 18:28:02 · 1243 阅读 · 0 评论