![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
周先森爱吃素
大家好,我是CSDN博主周先森爱吃素,目前处于研究生阶段,主攻方向为计算机视觉的研究。加入CSDN以来,凭借热爱与坚持,以博文的方式分享所学,截至目前已发文近300篇,内容涉及Python开发、网络爬虫、Linux开发、机器学习、计算机视觉等领域,感谢大家的关注、点赞、评论和收藏,是你们的坚持,促使我在这条路上坚定不移地走下去。未来,我会更加专注于自己喜爱的方向,学习更多的知识,输出更加高质量的文章。
展开
-
机器学习-Kmeans聚类
Kmeans聚类Python实现原创 2019-12-09 15:29:21 · 694 阅读 · 0 评论 -
机器学习-支持向量机
支持向量机原创 2019-11-28 16:04:44 · 1640 阅读 · 0 评论 -
机器学习-神经网络
神经网络原创 2019-11-13 13:10:01 · 356 阅读 · 0 评论 -
机器学习-逻辑回归
逻辑回归原创 2019-11-08 17:29:53 · 588 阅读 · 0 评论 -
机器学习-线性回归
线性回归原创 2019-10-30 15:14:48 · 633 阅读 · 0 评论 -
机器学习-机器学习简介
机器学习简介原创 2019-10-28 14:08:50 · 294 阅读 · 0 评论 -
机器学习-关联之Apriori算法原理及实战
Apriori算法前言关联分析是一种无监督的机器学习方法,主要用于发现大规模数据集中事物之间的依存性和关联性。挖掘数据中隐藏的有价值的关系(如频繁项集、关联规则),有利于对相关事物进行预测,也能帮助系统制定合理决策。关联分析的典型例子就是购物篮分析,通过发现顾客放入购物篮中不同商品之间的联系,分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买可以帮助零售商制定营销策略。另外,...原创 2019-03-27 19:47:35 · 849 阅读 · 0 评论 -
机器学习-集成之AdaBoost算法原理及实战
Boosting和AdaBoost简介Bagging采用的是一种多个分类器简单评分的方式。而Boosting是和Bagging对应的一种将弱分类器组合成为强分类器的算法框架,它根据分类器学习误差率来更新训练样本的权重。AdaBoost算法就是Boosting算法的一种。它建立在多个若分类器的基础上,为分类器进行权重赋值,性能好的分类器能获得更多权重,从而使评分效果更理想。原理Ad...原创 2019-04-01 19:33:53 · 1286 阅读 · 0 评论 -
机器学习-降维之主成分分析PCA算法原理及实战
主成分分析前言近年来,随着互联网和信息行业的发展,数据已经渗透到各行各业,成为重要的生产因素如数据记录和属性规模的急剧增长。社会已经进入大数据时代,数据越多越好似乎已经成为公理。然而,数据量并不是越大越好,有时过犹不及,在数据分析应用中大量的数据反而会产生更坏的性能。这些海量数据可能含有噪声或冗余信息,当数据集包含过多的数据噪声时,会导致算法的性能达不到预期的效果。移除信息量较少甚至无效信...原创 2019-04-02 21:21:17 · 1406 阅读 · 0 评论 -
机器学习-降维之奇异值分解SVD算法原理及实战
奇异值分解简介PCA是通过特征值分解来进行特征提取的,但它要求矩阵必须是方阵,但在实际应用场景中,经常遇到的矩阵都不是方阵,如N个学生,每个学生有M门课程,其中N!=M, 这就组成了一个M*N的非方阵矩阵,这种情况下无法使用主成分分析,也限制了特征值分解方法的使用。而奇异值分解(SVD),是线性代数中重要的一种矩阵分解,该方法对矩阵的形状没有要求。原理在很多情况下,数据的一小段携...原创 2019-04-03 13:53:46 · 1174 阅读 · 0 评论 -
机器学习-Stacking方法的原理及实现
本文主要介绍了Stacking集成模型方法以及使用框架Mlxtend实现Stacking模型。原创 2019-04-12 19:30:36 · 12937 阅读 · 0 评论 -
数据挖掘竞赛-北京PM2.5浓度回归分析训练赛
北京PM2.5浓度回归分析训练赛简介DC上的一个回归题,比较简单。时间原因没有细看,提交到70多名就结束了。使用stacking方法结合多个回归模型。过程数据获取官方给定。数据探索训练集有35746条记录,13个字段,有表头,其中pm2.5为目标。叙述数据预处理主要对date属性进行预处理,因为其字符串属性无法参与建模。利用time模块解...原创 2019-04-12 21:08:42 · 5626 阅读 · 10 评论 -
数据挖掘竞赛-美国King County房价预测训练赛
美国King County房价预测训练赛简介DC上的一个回归题(正经的回归题)。比较简单。时间原因(暂时没什么时间看国内旧赛),看了一下网上的解答,改善了一下神经网络就提交了。过程数据获取报名成功后到官网提供的入口下载,或者我的Github也上传了。数据探索简单了解数据格式。训练集有10000条记录,14个特征,描述如下。(注意,官方数据集没有表头)其...原创 2019-04-09 21:40:26 · 5019 阅读 · 9 评论 -
XgBoost使用及调参教程
Kaggle比赛利器XGBboost教程。原创 2019-04-28 21:04:27 · 4096 阅读 · 0 评论 -
机器学习进阶-优化的近邻算法
优化近邻算法简介最近论文上看到有作者提到了近邻的一些算法优化,在这里简单介绍一下。一般而言,除了Brute Force这种高复杂度方法,目前的近邻算法优化方式主要两种(K-D tree、Ball tree)。K-D tree...原创 2019-05-19 12:14:57 · 647 阅读 · 0 评论 -
机器学习-回归之逻辑回归算法原理及实战
逻辑回归简介在一元回归和多元回归模型中,处理的因变量都是数值型区间变量,建立的模型描述的是因变量的期望与自变量之间的线性关系。然而,在实际的问题分析时,所研究的变量往往不全是区间变量而是顺序变量或者属性变量,如二项分布的问题。例如,在医疗诊断中,可以通过分析病人的年龄、性别、体质指数、平均血压、疾病指数等指标,判断这个人是否有糖尿病,假设y=0表示未患病,y=1表示患病,这里的因变量就是...原创 2019-04-05 19:21:09 · 576 阅读 · 0 评论 -
机器学习-集成之随机森林算法原理及实战
Bagging和随机森林前言集成学习是目前机器学习的一大热门方向。简单来说,集成学习就是组合许多弱模型以得到一个预测结果比较好的强模型。对于常见的分类问题就是指采用多个分类器对数据集进行预测,把这些分类器的分类结果进行某种组合(如投票)决定分类结果,从而整体提高分类器的泛化能力。集成学习对于大数据集和不充分数据都有很好的效果。因为一些简单模型数据量太大而很难训练,或者只能学习到一部分,而...原创 2019-03-31 20:39:11 · 980 阅读 · 0 评论 -
机器学习-Logistic回归原理及实战
Logistic回归回归 在介绍Logistic回归之前,先容我介绍一下什么是回归 回归,指研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法,又称多重回归分析。通常Y1,Y2,…,Yi是因变量,X1、X2,…,Xk是自变量。 若自变量和因变量之间保持一种最基本的线性关系,我们称之为线性回归,最简单的线性回归是指一元线性回归,关系为...原创 2018-12-01 14:36:16 · 489 阅读 · 0 评论 -
机器学习-分类之朴素贝叶斯(NB)原理及实战
朴素贝叶斯(NB)简介 一个简单的概率分类器。 朴素贝叶斯分类器(Naive Bayes Classifier,NBC)发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。 同时NBC模型所需要估计的参数很少,对缺失数据不太敏感,算法比较简单。之所以称为“朴素”是因为整个形式化过程只做最简单、最原始的假设。 朴素贝叶斯在数据较少的情况下仍然有效,可以处理多分类问题。 ...原创 2018-12-01 14:40:47 · 1272 阅读 · 0 评论 -
数据分析&机器学习-分类好坏的评价方式
1.ROC曲线这是我们机器学习和数据挖掘等领域用来可视化预测结果准确性最常用的工具之一。它的定义如下:按照顺序逐个把样本作为正例进行预测,计算出FPR和TPR。分别以FPR、TPR为横纵坐标作图即可得到ROC曲线。其中,两个变量定义如下。FPR = TP/(TP+FN)TPR = TP/(TP+FP)其中,变量定义如下表,其实就是混淆矩阵的结果。 TP ...原创 2018-11-30 17:45:47 · 580 阅读 · 0 评论 -
机器学习-分类之支持向量机(SVM)原理及实战
支持向量机原理及实战。原创 2019-01-25 19:42:23 · 935 阅读 · 0 评论 -
机器学习-分类之AdaBoost原理及实战
AdaBoost算法简介当一个分类器正确率不那么高时,称其为“弱分类器”,或者说该分类器的学习方法为“弱学习方法”。与之对应的,存在“强分类器”和“强学习方法”。强学习方法的正确率很高。AdaBoost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。AdaBoost是Adaptive Boost...原创 2019-01-26 18:15:19 · 516 阅读 · 0 评论 -
机器学习-机器学习概论(入门机器学习基础知识)
机器学习简介 机器学习一词来源于Machine Learning的翻译,主要研究计算机模拟或者实现人类的行为,顾名思义,像学生一样,通过学习获取新的知识或者技能,完善自身的知识结构,并不断提升自己的性能。 机器学习是人工智能的核心,其应用编辑人工智能的多个领域,如图像处理、人脸识别、自然语言处理(NLP)、数据挖掘、生物特征识别、检测信用卡欺诈、证券市场分析、语音和手写识别等。 工...原创 2019-01-21 20:48:27 · 597 阅读 · 0 评论 -
Python工具包-分词工具pkuseg
pkuseg使用简介最近社区推了一些文章介绍了北大开源的一个新的中文分词工具包pkuseg。它在多个分词数据集上都有非常高的分词准确率。其中广泛使用的结巴分词(jieba)误差率高达18.55%和20.42%,而北大的pkuseg只有3.25%与4.32%。在中文处理领域,特别是数据分析挖掘这个领域,数据预处理重要性不言而喻,那么分词的重要性也是不言而喻的。简单使用pkuseg这个包,...原创 2019-01-28 16:03:02 · 7481 阅读 · 7 评论 -
机器学习-分类之决策树原理及实战
决策树简介决策树是一个非参数的监督学习方法,又称为判定树,是运用于分类的一种树结构,其中的每个内部节点代表对某一属性的一次测试,每条边代表一个测试结果,叶子节点代表某个类或者类的分布。简单决策树决策树的决策过程一般需要从决策树的根节点开始,将待测数据与决策树中的特征节点进行比较,并按照比较结果选择下一个比较分支,直到叶子节点作为最终的决策结果。决策树除了用于分类外,还可以用于回...原创 2019-03-01 17:11:24 · 568 阅读 · 0 评论 -
机器学习-分类之多层感知机原理及实战
讲解多层感知器并用其进行分类实战。原创 2019-03-01 19:14:30 · 16597 阅读 · 3 评论 -
机器学习-预测之BP神经网络模型原理及实战
BP神经网络模型原创 2019-03-17 15:14:39 · 26011 阅读 · 5 评论 -
机器学习-关联之FP-Growth算法原理及实战
FP-Growth简介FP-Growth算法是一种发现数据集中频繁模式的有效方法,它在Apriori算法的原理的基础上,采用FP(Frequent Pattern,频繁模式)树数据结构对原始数据进行压缩,大大加快了计算速度。FP-Growth算法把数据集中的事物映射到一棵FP-Tree上,再根据这棵树找到频繁项集,FP-Tree的构建过程只需要扫描两次数据集,特别是在大型数据集上具有很高的...原创 2019-03-29 20:19:52 · 1982 阅读 · 0 评论 -
机器学习-聚类之K均值(K-means)算法原理及实战
K-means算法前言机器学习方法主要分为监督学习和非监督学习两种。监督学习方法是在样本标签类别已知的情况下进行的,可以统计出各类样本的概率分布、特征空间分布区域等描述量,然后利用这些参数进行分类器设计。在实际应用中,很多情况是无法预先知道样本标签的,因而只能利用非监督机器学习方法进行分析。聚类分析就是典型的非监督学习方法,它在没有给定划分类别的情况下,根据数据自身的距离或者相似度进行样本...原创 2019-04-04 21:03:10 · 1266 阅读 · 0 评论 -
机器学习-回归之一元回归与多元回归算法原理及实战
一元回归分析和多元线性回归前言在统计学中,回归分析(Regression Analysis)指的是确定两种或两种以上变量间的相互依赖的定量关系的一种分析方法。该方法常使用数据统计的基本原理,对大量统计数据进行数学处理,并确定因变量与某些自变量的相关关系,建立一个相关性较好的回归方程(函数表达式),并加以外推,用于预测以后的因变量的变化的分析方法。回归分析是一种预测性的建模技术,它研究的是...原创 2019-04-05 14:48:51 · 6001 阅读 · 0 评论 -
机器学习-分类之K近邻算法(KNN)原理及实战
K近邻算法原理及实战。原创 2018-11-30 14:54:17 · 893 阅读 · 4 评论