【数据分析】机器学习与统计学
文章平均质量分 83
机器学习与统计学笔记
YYIverson
keep going.
展开
-
【数据分析】特征工程中的特征构造、特征提取、特征选择
目录特征构造(Feature Construction)特征抽取(Feature Extraction)特征选择(Feature Selection)过滤法(Filter)包装法(Wrapper)集成法(Embedded)特征构造(Feature Construction)特征构造指的是从原始数据构造新特征的处理过程,一般需要根据业务分析,生成能更好体现业务特...转载 2019-08-30 20:26:11 · 17916 阅读 · 1 评论 -
【数据分析】数据预处理中的数据清洗
目录数据清洗错误值处理(Wrong Value Processing)异常值处理(Outlier Processing)缺失值处理(Missing Data Processing)数据清洗错误值处理(Wrong Value Processing)错误值是指数据集中出现的数值、格式、类型等错误,导致错误的原因包括:(1)输入错误:录入信息时缺失、错误输入、...转载 2019-08-30 15:37:33 · 3822 阅读 · 1 评论 -
【数据分析】重要环节--缺失值怎么处理
转载出处:https://blog.csdn.net/Q2605894893/article/details/81327027目录1 数据缺失的原因2 数据缺失的类型3 数据缺失的处理方法1. 删除记录2. 数据填补3. 不处理4 总结1 数据缺失的原因首先我们应该知道:数据为什么缺失?数据的缺失是我们无法避免的,可能的原因有很多种,博主总结有以下三大...转载 2019-12-04 16:17:42 · 6489 阅读 · 1 评论 -
【统计学】区分定类、定序、定距、定比变量!!
从宏观角度分析,数据类型分为定性和定量两种。定性:变量是品质特征,如车的品牌,宝马,奔驰,只是为了区分定量:变量是数值,可以量化,如身高体重等。定量可以分为离散型和连续型。离散型一般为计数结果,如抛五次硬币正面的次数。 连续型一般为测量结果,如手掌长度的测量。从统计学分析,数据类型分为四种:定类,定序,定距,和定比,这四种类型是从低到高的递进关系,高级的类型可以用低级类型的分析方...原创 2019-08-25 22:55:56 · 63202 阅读 · 3 评论 -
【Python3机器学习】sklearn中的CountVectorizer和TfidfTransformer
原文链接:https://blog.csdn.net/qq_36134437/article/details/103057909CountVectorizer会将文本中的词语转换为词频矩阵,它通过fit_transform函数计算各个词语出现的次数。CountVectorizer(input='content', encoding='utf-8', decode_error='stric...转载 2020-02-12 16:45:04 · 1713 阅读 · 1 评论 -
word2vec (转载)
word2vec前世今生2013年,Google开源了一款用于词向量计算的工具——word2vec,引起了工业界和学术界的关注。首先,word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练;其次,该工具得到的训练结果——词向量(word embedding),可以很好地度量词与词之间的相似性。随着深度学习(Deep Learning)在自然语言处理中应用的普及,很多人误以为wor...转载 2020-02-12 16:31:01 · 316 阅读 · 0 评论 -
【机器学习之路】(转载)
【我的机器学习入门之路(上)——传统机器学习】这篇博客主要记录了我自己的学习路线及相应的资料汇总。总时间跨度约为6个月,主要是利用了晚上的时间和周末的时间,每天坚持下来,日积月累,回过头来,可能会惊讶于自己的进步。对于一个机器学习的小白来说,往往不知道如何入门机器学习,毕竟机器学习的知识点非常多,方向也比较多,所以,在我们进行学习之前,有必要对机器学习的大方向做一个汇总比较与选择。机器学习的应...转载 2020-02-12 16:34:16 · 1239 阅读 · 0 评论 -
【机器学习】样本不均衡问题的处理方法
转载出处:https://blog.csdn.net/weixin_42462804/article/details/99821091文章目录一瞥 什么是样本类别分布不均衡? 样本类别分布不均衡导致的危害? 解决方法: 1.通过过抽样和欠抽样解决样本不均衡 (1)过抽样(over-sampling):通过增加分类中少数类样本的数量来实现样本均衡,比较...转载 2020-01-05 16:46:23 · 2772 阅读 · 0 评论 -
【机器学习】分类问题指标总结
转载出处:https://blog.csdn.net/wf592523813/article/details/95202448目录1、二分类评价指标1.1 准确率(Accuracy)1.2 精确率(Precision)1.3 查全率(召回率 Recall)1.4 F1-Score1.5 ROC曲线和AUC1.6 ROC 与 P, R对比2、多分类评价指标...转载 2019-12-03 16:18:00 · 769 阅读 · 0 评论 -
【机器学习】【线性代数】之矩阵求导
转载出处:https://blog.csdn.net/u010976453/article/details/54381248目录1、X是标量时1.1 标量Y对标量X求导1.2 向量Y对标量X求导1.3 矩阵Y对标量X求导2、X是向量时2.1 标量Y对向量X求导2.2 向量Y对向量X求导2.3 矩阵Y对向量X求导3、X是矩阵时4、常用公式...转载 2019-10-03 10:48:26 · 854 阅读 · 1 评论 -
【Python机器学习】Python pandas快速自实现ID3算法构建决策树 + sklearn调包的使用
参考博客:https://blog.csdn.net/c406495762/article/details/76262487目录1、ID3算法原理2、算法实现代码(利用pandas)2.1 构建训练集2.2 算法实现2.3 全部代码3、决策树调包使用3.1 代码3.2 参数设置相关4、决策树的优缺点1、ID3算法原理I...原创 2019-09-30 14:16:55 · 2292 阅读 · 0 评论 -
【Python机器学习】Python pandas不到50行自实现KNN海伦约会对象识别(包括数据读取、画图、标准化,算法实现等流程) + 60行实现手写数字识别
目录1、KNN原理2、海伦对象训练数据集3、单条测试输入代码4、单条测试输入结果与图示5、多条测试输入正确率计算代码及结果6、手写数据识别代码及结果1、KNN原理计算已知类别数据集中的点与当前点之间的距离; 按照距离递增次序排序; 选取与当前点距离最小的k个点; 确定前k个点所在类别的出现频率; 返回前k个点所出现频率最高的类别作为当前点的预测分类。...原创 2019-09-27 14:10:42 · 689 阅读 · 1 评论 -
【Matchzoo】工具中模型试验ARC-II、MVLstm
1、MV-LSTM模型(1)简介: 在论文A Deep Architecture for Semantic Matching with Multiple Positional Sentence Representations(Shengxian Wan∗ , Yanyan Lan† , Jiafeng Guo† , Jun Xu† , Liang Pang∗ , and X...原创 2019-06-29 12:27:22 · 2506 阅读 · 4 评论