scikit-learn
scikit-learn库的基本使用
寅月十八
一个小白程序员的成长历程记录
展开
-
sklearn特征抽取----02文本特征提取(Tf–idf 项加权)
文章目录简介基本原理作用类和方法类方法流程先分词特征提取 简介 在一个文本中,常见的主语谓语及一些常见的词(如你、我、她)数量有很多,会出现很多次。 但是对于文章分析没有任何作用,因此我们不仅要对词进行统计更要将每个词的权重展现出来 基本原理 词的重要性:Tf * idf Tf:表示术语频率(词的频率) idf:出现的次数 Tf * idf值越大说明词越重要 作用 将文本中每个词的权重计算出来 类和方法 类 TfidfVectorizer() 权重计算 方法 方法 作用 fit_原创 2020-06-21 17:48:50 · 252 阅读 · 0 评论 -
sklearn特征抽取----02文本特征提取(text.CountVectorizer)
文章目录基本原理作用类和方法类方法流程中文文本处理处理方法流程先分词特征提取 基本原理 将每个文本中的词以逗号或者空格分开单独作为分类,在每个列表中统计词出现的个数 只支持英文 作用 将文本内容转化为所需要的数据类型 类和方法 类 CountVectorizer(parm) parm:max_df=x 返回词频矩阵 对文本进行特征化 1.统计文章中的所有词,重复的只看做一次 最后是词的列表 2.对每篇文章,在词的列表里面进行统计每个词出现的次数 注意:单个字母不统计 方法 方法 作用原创 2020-06-21 17:06:14 · 461 阅读 · 0 评论 -
sklearn特征抽取----01字典类型特征提取(DictVectorizer)
文章目录作用类和方法类方法流程 作用 把python中字典数据(dict)进行特征值化 类和方法 类 DictVectorizer(sparse=True) 默认为True,返回一个sparse矩阵 False,不转换为sparse矩阵 类 DictVectorizer实现了one-hot编码,将数据的特征分离,数据被分为分类属性和传统属性 eg: data = [ {‘city’: ‘北京’,‘temperature’:100}, {‘city’: ‘上海’,‘temperature’:60},原创 2020-06-21 14:43:03 · 667 阅读 · 0 评论