![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 91
Yasin_
这个作者很懒,什么都没留下…
展开
-
聚类算法知识点整理
目录1.聚类任务 1.1.无监督学习 1.2.聚类定义 1.3.聚类的用途 2.聚类算法涉及的两个基本问题 2.1.性能度量——“有效性指标” 2.1.1.外部指标 2.1.1.1.Jaccard系数(JC) 2.1.1.2.FM系数(FMI) 2.1.1.3.Rand系数(RI) 2.1.2.内部指标 2...原创 2019-03-16 11:12:35 · 6287 阅读 · 0 评论 -
优化算法知识点整理
几种优化算法,梯度下降的种类考虑无约束优化问题minxf(x)minxf(x)梯度下降梯度下降法是一种常用的一阶优化方法,是求解无约束优化问题最简单、最经典的方法之一。其中,f(x)连续可微。若能构造一个序列x0,x1,x2,...x0,x1,x2,...满足f(xt+1)<f(xt),t=0,1,2...f(xt+1)<f(xt),t=0...原创 2019-03-16 11:19:48 · 823 阅读 · 0 评论 -
决策树总结
决策树决策树是一种自上而下,对样本数据进行树形分类的算法,既可以用于分类,又可以用于回归。决策树的构建过程也对应着对特征空间的划分:从根结点开始,计算该结点所有可能特征的信息增益(比)或基尼系数,选择信息增益(比)最大或基尼系数最小的特征作为结点的特征,由该特征的不同取值对训练数据进行分割,建立子结点;再对子结点递归地调用以上方法,构建决策树;直到所有特征的信息增益(比)或基尼系数很小或没有特...原创 2019-03-16 21:48:51 · 5683 阅读 · 1 评论 -
L1、L2正则化总结
为什么不用L0范数而用L1范数?L0范数是向量中非0元素的个数,若使用L0范数来规则化一个参数矩阵,就是希望其稀疏,大部分元素都是0。但L0范数难以优化求解,L1范数是L0范数的最优凸近似,且比L0范数更易优化求解。L1和L2为什么能防止过拟合,它们有什么区别?通过添加正则项,可以使模型的部分参数值都较小甚至趋于0,对应的特征对模型的影响就比较小,相当于对无关特征做了一个惩罚,即使它们...原创 2019-04-29 20:47:59 · 5084 阅读 · 0 评论 -
机器学习与深度学习模型上线总结
用PMML实现机器学习模型的跨平台上线 在机器学习用于产品的时候,我们经常会遇到跨平台的问题。比如我们用Python基于一系列的机器学习库训练了一个模型,但是有时候其他的产品和项目想把这个模型集成进去,但是这些产品很多只支持某些特定的生产环境比如Java,为了上一个机器学习模型去大动干戈修改环境配置很不划算,此时我们就可以考虑用预测模型标记语言(Predictive Model Mark...原创 2019-05-18 12:01:13 · 2495 阅读 · 0 评论 -
定价项目
项目背景:为保证二手手机的质量,转转对二手手机提供验机服务,用户将手机寄到验机中心,工作人员会对二手手机进行拆机验机,然后根据验机结果,提供一个这款手机可能售出的价格,这个价格有主要有三个用途:验机后给用户提供验机证明和一个参考定价,用户可以在网上自定义价格售卖; 用户委托公司在竞拍卖场进行竞拍,该价格乘以一个小于1的系数(如:0.9)得到竞拍的起拍价; 竞拍时VIP用户可以自定义起拍...原创 2019-07-01 22:48:57 · 1212 阅读 · 0 评论 -
常见的机器学习优化器
梯度下降最常见的三种变形是BGD,SGD,MBGD,区别是梯度下降时用多少数据来计算目标函数的梯度。批量梯度下降法(Batch Gradient Descent)更新参数时使用所有样本来进行更新。随机梯度下降法(Stochastic Gradient Descent)更新参数时使用一个样本来进行更新。(但平时提到的SGD是指的Mini-batch SGD)。小批量梯度下降法(M...原创 2019-06-23 11:36:39 · 1228 阅读 · 0 评论 -
批量归一化(Batch Normalization)
对输入数据进行标准化处理的原因?使输入数据各个特征的分布相近:神经网络学习的本质就是学习数据的分布,如果训练数据与测试数据的分布不同,那么网络的泛化能力也大大降低; 在使用小批量数据对神经网络进行训练时,若每批训练数据的分布各不相同,网络在每次迭代都去学习适应不同的分布,这会大大降低网络的训练速度;为什么要使用批量归一化?使用浅层模型时,随着模型训练的进行,当每层中参数更新时,靠近...原创 2019-06-23 12:00:34 · 36024 阅读 · 2 评论 -
机器学习中的评估指标与损失函数
分类指标模型评估准确率accuracy是指分类正确的样本数与总样本数之比,即。其缺点在于,当样本类别比例非常不均衡时,如正负样本比为1:9,全部预测为负就可以得到90%的准确率。为了解决这个问题,可以使用平均准确率(每个类别样本准确率的算术平均)。精确率和召回率多用于二分类,可结合混淆矩阵进行理解:TP和TN是预测正确的样本,FP和FN是预测错误的样本,TP+TN+FP+FN=...原创 2019-07-02 11:20:06 · 12767 阅读 · 1 评论 -
机器学习项目流程
机器学习中建模过程数据处理特征工程模型选择寻找最佳超参数模型分析与模型融合 1.数据处理1.1机器学习中使用的数据的原则属性的值和属性的名称应该具有实际的意义。去除属性中相关度高的属性去除对结果影响不大的属性合理选择关联字段 1.2常见的数据预处理方法数据清洗:数据清洗的目的不仅仅是清除错误点,冗余点和数据的噪声,还要将数据按照一定的规则进行统一处理。数据集成:将多...原创 2019-02-27 09:56:33 · 548 阅读 · 0 评论 -
机器学习校招常考知识点小记
目录概念&原理 模型简介 模型比较 项目相关 业务 开放性问题 数学 大数据相关 深度学习 语言 数据结构与算法算法要从以下几个方面来掌握 产生背景 适用场合(数据规模,特征维度,是否有 Online 算法,离散/连续特征处理等角度); 原理推导(最大间隔,软间隔,对偶); 求解方法(随机梯度下降、拟牛顿法等优化算法); 优缺点,相关改进; ...原创 2019-03-02 21:35:13 · 755 阅读 · 0 评论 -
机器学习中常见知识点总结
Adam 优化器结合 AdaGrad 和 RMSProp 两种优化算法的优点。对梯度的一阶矩估计(First Moment Estimation,即梯度的均值)和二阶矩估计(Second Moment Estimation,即梯度的未中心化的方差)进行综合考虑,计算出更新步长。二阶矩: 梯度平方累积和的平方根 (时间上)。此项能够累积各个参数 gt,i 的历史梯度平方,频繁更新的梯度,则累积的......原创 2018-08-30 20:19:25 · 11543 阅读 · 0 评论 -
XGBoost原理剖析及实战
XGBoost是GBDT算法的工程实现,原始的GBDT算法基于经验损失函数的负梯度来构造新的决策树,在决策树构建完成后再进行剪枝。而XGBoost对损失函数进行了二阶泰勒展开,同时用到了一阶导数和二阶导数信息,并且在决策树构建阶段就加入了正则项用于控制模型的复杂度,正则项里包含了树的叶子节点个数,每个叶子节点输出分数的L2平方和。基学习器建树的过程:从根节点开始,每次对一个叶子节点进行分裂...原创 2018-08-28 21:30:28 · 1016 阅读 · 1 评论 -
逻辑回归总结
一句话概括逻辑回归:逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法运用梯度下降来求解参数,以达到将数据分类的目的。(求解参数时常见的算法还有:随机梯度下降法,牛顿法,拟牛顿法等)逻辑回归的优缺点:优点:可解释性非常好。从特征的权重可以看到不同的特征对最后结果的影响。 模型效果不错。如果特征工程做的好,效果不会太差。 实现简单,计算量非常小,训练速度较快,存储资源低(计算量...原创 2018-09-02 21:36:26 · 2571 阅读 · 0 评论 -
机器学习中可复用代码总结
def get_chunk_df(file, chunksize = 6000000, sample = 0.01 ): chunks = pd.read_csv(file, chunksize = chunksize) chunks_list = [] i = 0 for chunk in chunks: i+= 1 print(...原创 2018-09-22 10:00:34 · 620 阅读 · 0 评论 -
JData算法大赛-用户购买预测
机器学习通用的完整流程:数据清洗、数据分析、特征抽取、搭建模型、模型评估数据清洗高潜用户的购买意向预测,从机器学习的角度来讲,可以认为这是一个二分类的任务.那么我们就是尝试去构建自己的正负样本.原始数据里面存在很多噪声,第一步先要对数据清洗,比如说:去掉只有购买记录的用户(没有可用的历史浏览等记录来预测用户将来的购买意向) 去掉浏览量很大而购买量很少的用户(惰性用户或爬虫用户) ...原创 2018-11-23 22:23:07 · 7946 阅读 · 9 评论 -
机器学习之特征工程
特征工程是将原始数据转化为特征,更好表示预测模型处理的实际问题,提升对于未知数据的准确性。特征选择:优质的特征可以在使用简单的算法模型或者不是最优模型参数的情况下得到不错的预测结果,而且得到的模型解释性更强,更容易理解和维护,所以特征选择在比赛中起到了非常重要的作用。而且在样本少,特征多的情况下,如果能恰当的剔除噪音,会对模型的整体性能与稳定性起到质的提升。从所有特征中选取最小特征子集...原创 2018-12-14 09:02:48 · 1268 阅读 · 0 评论 -
机器学习基础算法总结
KNN算法K近邻法(k-nearest neighbors,KNN)是一种基本分类与回归的方法,其基本做法是:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类。与决策树算法相同既可以做分类也可以做回归,主要区别在于最后做预测时候的决策方式。KNN做分类预测时,一般选择多数表决法,即:找到训练集里和预测的...原创 2018-12-14 09:06:01 · 2425 阅读 · 0 评论 -
支持向量机总结
SVM算法总结SVM的原理是什么?支持向量机(Support Vecor Machine,SVM)是既可以解决线性问题又可以解决非线性问题,既可以用于分类,又可以用于回归的经典算法。它的基本模型是在特征空间中寻找间隔最大化的分离超平面,使距离最近的样本点到该超平面的距离尽可能的远。(间隔最大使它有别于感知机)当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即Hard-Mar...原创 2019-01-04 21:21:15 · 8815 阅读 · 0 评论 -
集成学习总结
集成学习之BaggingBoosting是一种基学习器间存在强依赖关系、必须串行生成的序列化方法。Bagging是一种基学习器间不存在强依赖关系、可同时生成的并行化方法,它的特点在“自助采样”。想要得到泛化性能强的集成,基学习器应尽可能相互独立;虽然独立在现实任务中无法做到,但可以使基学习器尽可能具有较大的差异。给定一个训练数据集,一种可能的做法是对训练样本进行采样,产生若干个不同的子集,...原创 2019-01-05 23:05:26 · 2463 阅读 · 0 评论 -
天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测
在18年1月参加了天池精准医疗大赛-人工智能辅助糖尿病遗传风险预测。我国有1.1亿人患有糖尿病,是世界上糖尿病患者最多的国家,每年用于糖尿病的医疗费用超过3000亿,与我们赛题相关的妊娠糖尿病是其中一大类。妊娠糖尿病多发生在怀孕3个月后,分娩后大部分恢复正常,再次怀孕时复发率高达52-69%,产后5-16年大约有17-63%发展成2型糖尿病。除了对孕妇的伤害外,妊娠糖尿病还可能提高胎儿发生先天畸形...原创 2019-02-26 17:24:07 · 5132 阅读 · 14 评论 -
XGBoost、LightGBM、Catboost总结
sklearn集成方法bagging常见变体(按照样本采样方式的不同划分)Pasting:直接从样本集里随机抽取的到训练样本子集 Bagging:自助采样(有放回的抽样)得到训练子集 Random Subspaces:列采样,按照特征进行样本子集的切分 Random Patches:同时进行行采样、列采样得到样本子集sklearn-bagging学习器Bagg...原创 2019-03-02 20:25:40 · 6429 阅读 · 1 评论 -
kmeans
import numpy as npdef get_dist(vec1, vec2): # 两个向量之间的欧几里德距离 return np.sqrt(np.sum(np.power(vec1 - vec2, 2)))def rand_cent(dataSet, k): # 返回初始化得到的k个质心向量 n = np.shape(dataSet)...原创 2019-07-12 19:43:44 · 236 阅读 · 0 评论