机器学习学习笔记
文章平均质量分 60
野生胡萝卜
这个作者很懒,什么都没留下…
展开
-
sklearn绘制roc曲线二三事
细致说明参考文章Python下使用sklearn绘制ROC曲线(超详细) 但是对原文中的代码关于 y_score的用法存疑,原文中直接把预测值作为y_score来用,但是y_score的解释是模型预测的类别概率值,希望大神指教。 针对原文中代码,做了以下几个调整: 1.将原类别值+1 我本来的类别是[0,1,0…,1]这样的组合,但是在调试过程中,发现始终会提示“UndefinedMetricWarning: No positive samples in y_true, true positive valu原创 2021-05-24 21:21:46 · 1903 阅读 · 1 评论 -
python实现中文文本分类(三)贝叶斯分类器
中文文本分类的步骤: 1.预处理:去除文本的噪声信息,例如HTML标签、文本格式转换、检测句子边界等。 2.中文分词:使用中文分词器为文本分词,并去除停用词。 3.构建词向量空间:统计文本词频,生成文本的词向量空间。 4.权重策略——TF-IDF方法:使用TF-IDF发现特征词,并抽取为反映文档主题的特征。 5.分类器:使用算法训练分类器。 6.评价分类结果:分类器的测试结果分析。 本文选择朴素贝叶斯算法进行文本分类,测试集随机抽取自文档集合,每个分类取10个文档,过滤掉1kb以下的文档。 先建立测试集的向原创 2021-03-28 19:20:03 · 1837 阅读 · 1 评论 -
python实现中文文本分类(二)TF-IDF权重策略
中文文本分类的步骤: 1.预处理:去除文本的噪声信息,例如HTML标签、文本格式转换、检测句子边界等。 2.中文分词:使用中文分词器为文本分词,并去除停用词。 3.构建词向量空间:统计文本词频,生成文本的词向量空间。 4.权重策略——TF-IDF方法:使用TF-IDF发现特征词,并抽取为反映文档主题的特征。 5.分类器:使用算法训练分类器。 6.评价分类结果:分类器的测试结果分析。 向量空间模型把文本表示为一个向量,该向量的每个特征表示为文本中出现的词,把训练集中出现的每个不同的字符串都作为一个维度,包括常原创 2021-03-28 17:42:15 · 3807 阅读 · 0 评论 -
python实现中文文本分类(一)jieba分词
中文文本分类的步骤: 1.预处理:去除文本的噪声信息,例如HTML标签、文本格式转换、检测句子边界等。 2.中文分词:使用中文分词器为文本分词,并去除停用词。 3.构建词向量空间:统计文本词频,生成文本的词向量空间。 4.权重策略——TF-IDF方法:使用TF-IDF发现特征词,并抽取为反映文档主题的特征。 5.分类器:使用算法训练分类器。 6.评价分类结果:分类器的测试结果分析。 中文分词是将一个汉字序列切分成单独的词。jieba是专门使用python语言开发的分词系统,占用资源较小,常识类文档的分词精度原创 2021-03-28 16:16:28 · 9297 阅读 · 1 评论