![](https://img-blog.csdnimg.cn/20190817111450863.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习
复习整理机器学习相关的知识
Lestat.Z.
lestatzhang.com
展开
-
记录一个自定的CategoricalTransformer
前言自定义了一个简单的字符变量的变形器,代码如下。import numpy as np import pandas as pdfrom sklearn.base import BaseEstimator, TransformerMixinfrom sklearn.preprocessing import LabelEncoder, OneHotEncoder, StandardScale...原创 2019-08-25 21:56:31 · 261 阅读 · 0 评论 -
自定义sklearn CustomImputer
前言自己根据需求, 自定了一个简单的CustomImputer, 代码如下import numpy as np import pandas as pdfrom sklearn.base import BaseEstimator, TransformerMixinfrom sklearn.utils.multiclass import type_of_targetfrom sklearn...原创 2019-08-25 14:23:47 · 303 阅读 · 0 评论 -
自定义sklearn transformer
前言自定义了一个dataframe的transformer,用来清楚无用的列, 逻辑比较简单,具体代码如下import numpy as np import pandas as pdfrom sklearn.base import BaseEstimator, TransformerMixinfrom sklearn.preprocessing import OneHotEncoder,...原创 2019-08-25 11:42:03 · 573 阅读 · 0 评论 -
学习一下sklearn 中的BaseEstimator
学习一下sklearn 中的BaseEstimator, 源代码如下:class BaseEstimator: """Base class for all estimators in scikit-learn Notes ----- All estimators should specify all the parameters that can be set ...原创 2019-08-16 15:47:16 · 6939 阅读 · 1 评论 -
python inspect模块
前言inspect模块提供了几个有用的函数来帮助获取有关活动对象的信息,例如模块,类,方法,函数,回溯,框架对象和代码对象。 例如,它可以用来检查类的内容,检索方法的源代码,提取和格式化函数的参数列表,或获取显示详细回溯所需的所有信息。常用方法方法名描述inspect.getmembers(object[, predicate])返回按名称排序的(名称,值)对列表中对象...原创 2019-08-10 20:00:24 · 887 阅读 · 0 评论 -
什么是频率?
文章目录什么是频率?频率该如何度量?相对频率是如何表示的?参考资料什么是频率?频率是观察到变量(数据项)的特定值发生的次数。频率该如何度量?根据所需的目的,可以以不同的方式表示值的频率。绝对频率描述了观察到变量(数据项)的特定值发生的次数。表达频率的最简单方法是绝对值。相对频率描述了观察到变量(数据项)的特定值相对于该变量的值的总数发生的次数。通过将绝对频率除以变量的值的总数来计算相对...原创 2019-08-17 10:51:15 · 5229 阅读 · 1 评论 -
变量有哪些类型?
根据可以研究,测量和呈现的方式,可以有不同的方式来描述变量。**数值变量(Numeric)**有将可测量的数量描述为数字的值,例如“多少”或“多少”。因此,数值变量是定量变量(quantitative)。数值变量可以进一步描述为连续或离散:连续变量(continuous) 是数字变量。观察可以在某组实数之间取任何值。给连续变量的观察值可以包括与测量仪器允许的一样小的值。连续变量的示例包括高...原创 2019-08-17 10:29:00 · 34437 阅读 · 1 评论 -
形状的度量Measures of Shape
什么是形状的度量?Measures of shape describe the distribution (or pattern) of the data within a dataset.The distribution shape of quantitative data can be described as there is a logical order to the values...原创 2019-08-17 00:08:23 · 644 阅读 · 0 评论 -
集中趋势度量Measures of Central Tendency
###什么是集中趋势度量?A measure of central tendency (also referred to as measures of centre or central location) is a summary measure that attempts to describe a whole set of data with a single value that re...原创 2019-08-16 23:32:58 · 3984 阅读 · 0 评论 -
数据分布度的度量Measures of Spread
什么是分布度的度量Measures of spread describe how similar or varied the set of observed values are for a particular variable (data item). Measures of spread include the range, quartiles and the interquartile...原创 2019-08-16 23:25:33 · 2920 阅读 · 0 评论 -
关于机器学习的推荐书单
想要学习的机器学习的朋友,可以看看下面这些书。对于初学者来说,我个人还是强烈推荐李航老师的《统计学习方法》。具体推荐书单如下:序号书名1李航.统计学习方法2机器学习及其应用3All of Statistics - A Concise Course in Statistical Inference - Larry Wasserman - Springer...原创 2019-03-29 21:48:02 · 1254 阅读 · 1 评论 -
机器学习面试问题整理(5) — 正则项&损失函数 &优化
文章目录概述L1和L2的区别? 为什么L2能提升泛化能力(减少预测误差,防止过拟合?)L1正则化有哪些好处L1正则为什么可以把系数压缩成0,坐标下降法的具体实现细节为什么要做数据归一化?归一化方式交叉熵cross entropy损失函数?0-1分类的交叉熵损失函数的形式0-1分类为什么用交叉熵而不是平方损失?什么情况不用交叉熵?神经网络里面的损失函数有哪些什么情况下一定会发生过拟合?解决过拟合的...原创 2019-02-24 10:43:00 · 6194 阅读 · 0 评论 -
机器学习面试问题整理(4) — Emsenble learning集成学习
文章目录概述集成学习树集成模型有哪几种形式?Boosting和bagging的区别Bagging为什么能减小方差概述基本推导和理论还是以看李航老师的《统计学习方法》为主。各种算法的原理,推荐理解到可以手撕的程度。以下为通过网络资源搜集整理的一些问题及答案,准备的有些仓促,没能记录所有资料的来源(侵删)集成学习优点:具有较高的准去率缺点:模型的训练过程比较复杂,效率不是很高。类别:...原创 2019-02-24 09:27:37 · 681 阅读 · 0 评论 -
机器学习面试问题整理(3) — Tree树形模型
文章目录概述随机森林优缺点GBDT的原理, 如何做分类和回归GBDT分类树拟合的是什么GBDT+ LR 是怎么做的CART分类回归树和ID3以及C4.5有什么区别决策树的优点和缺点RF, GBDT, XGBOOST, XGB的区别改变随机森林的训练样本数据量,是否会影响到随机森林学习到的模型的复杂度树集成模型有哪几种形式?随机森林的随机体现在哪方面决策树处理连续值的方法。决策树如何防止过拟合,过拟...原创 2019-02-24 09:22:41 · 4878 阅读 · 0 评论 -
机器学习面试问题整理(2) — SVM支持向量机
文章目录概述SVM原理及推导SVM与随机森林比较SVM为什么要引入拉格朗日的优化方法。SVM原问题和对偶问题关系?SVM在哪个地方引入的核函数, 如果用高斯核可以升到多少维?SVM怎么防止过拟合 ?SVM的目标函数。常用的核函数。SVM硬软间隔对偶的推导概述基本推导和理论还是以看李航老师的《统计学习方法》为主。各种算法的原理,推荐理解到可以手撕的程度。以下为通过网络资源搜集整理的一些问题及...原创 2019-02-24 09:09:00 · 663 阅读 · 0 评论 -
机器学习面试问题整理(1) — LR逻辑斯蒂回归
文章目录概述logistics公式及推导LR为什么用sigmoid函数, 为什么不用其他函数?这个函数有什么优点和缺点?逻辑斯蒂回归怎么实现多分类?Softmax公式逻辑回归估计参数时的目标函数,如果加上一个先验的服从高斯分布的假设,会是什么样?LR和SVM有什么区别?libsvm和liblinear有什么区别?Logistics vs 随机森林 vs SVM概述基本推导和理论还是以看李航老师...原创 2019-02-24 08:56:43 · 1121 阅读 · 0 评论 -
[文章翻译]时间序列异常检测
文章目录背景介绍文章翻译Abstract 摘要Keywords 关键词INTRODUCTION 简介RELATED WORK 相关工作DATA PREPROCESSING AND INITIAL ANALYTICS 数据预处理与初始分析DETECTION RULES 检测规则PREDICTION MODELS 预测模型EXPERIMENT 实验背景介绍项目上需要一个工具用来监控实时数据系统插入...翻译 2019-02-17 20:08:38 · 2598 阅读 · 0 评论 -
pyspark 代码练习1
记录下最近写过的pyspark代码,如下:edaStats = namedtuple('edaStats', 'is_numeric, n_unique, n_missing, _min, _25, _50, _75, _max, n_unique, n_freq, mean ')def eda_stats(dataframe, field_name, field_type): is_...原创 2019-09-07 22:55:22 · 536 阅读 · 0 评论