![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 82
BurningChrome
这个作者很懒,什么都没留下…
展开
-
机器学习笔记-TF-IDF统计方法
机器学习笔记-TF-IDF统计方法TF-IDF统计方法简介TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。其主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF∗IDFTF * IDFTF∗IDFTF为词频(Term Frequency),原创 2021-10-19 23:16:57 · 943 阅读 · 0 评论 -
机器学习笔记-数据预处理(标准化、归一化)(未完)
机器学习笔记-数据预处理(标准化、归一化)数据预处理(使用Scikit-Learn)sklearn.preprocessing 包sklearn.preprocessing 包提供了几个常用的效用函数和变换类,可以将原始特征向量转化为更适合其后的估计函数所需的形式。也就是对数据进行标准化处理。比如说,假如集合中存在异常值,使用robust scalers或者transformers就更合适一些。数据标准化Z-score(0-1标准化:移除平均值,将方差化为1)经过这种方法处理的数据符合标准正态分原创 2021-10-19 23:14:02 · 575 阅读 · 0 评论 -
机器学习笔记-基本python数据结构使用
机器学习笔记-基本python数据结构使用Python for Machine Learning阅读GitHub上的机器学习开源资料《A Complete Machine Learning Package》所做的笔记。数据结构(Lists, Dictionaries, Tuples, Sets)List使用方式:标识符 = [元素1, 元素2, 元素3, …]相关函数:list.sort() 排序list.reverse() 倒置list.append(element) 添加元素lis原创 2021-10-19 23:08:27 · 179 阅读 · 0 评论 -
机器学习笔记-分类的性能评测
分类的性能评测评价指标混淆矩阵(Confusion Matrix)Actual/Predict ClassC1~C1C1True Positive(TP)False Negative(FN)~C1False Positive(FP)True Negative(TN)感兴趣的为正类(Positive),反之为负类(Negative)。准确度Accuracy=(TP+TN)/ALLAccuracy=(TP+TN)/ALLAccuracy=(TP+TN)/A原创 2021-10-19 23:02:11 · 161 阅读 · 0 评论