- 博客(10)
- 资源 (25)
- 收藏
- 关注
转载 数据挖掘算法和实践(七):集成学习
集成学习是通过构建并结合多个学习器来完成学习任务,如下图,集成学习通过将多个学习器结合,获得比单一学习器显著优越的泛化性能。集成学习分为同质集成和异质集成,如果个体学习器全是一种算法称为同质集成,如果由不同算法生成,称为异质集成。基学习器是对于同质集成说的。要获得好的集成,个体学习器应该“好而不同”。如下图,图1中每个分类器只有66.6%的精度,集成之后精度为100%,图2中集成之后性...
2020-04-30 09:44:13 5741
原创 数据挖掘算法和实践(六):seaborn数据可视化探索(tips 数据集)
seaborn是一个面向对象作图工具,直译是海洋生物,tips 是小费数据集,本次使用seaborn学习数据分布的探索,在遇到新的数据集合时候,分析问题不至于无从下手;关于使用seaborn,参考官网 http://seaborn.pydata.org/index.htmlimport seaborn as snsimport pandas as pd import matplotl...
2020-04-29 09:10:28 9024 2
原创 2016kaggle大数据比赛:泰坦尼克号titanic的乘客生存预测模型剖析
titanic乘客的生存预测是数据挖掘的入门级实例,根据船上乘客的多维特征预测事故发生后乘客的生还几率,属于监督学习中典型的分类问题。本文结合对数据挖掘流程的理解和经典案列,呈现数据挖掘过程。该模型属于监督学习,需要训练集和数据集:数据集地址:https://www.kaggle.com/omarelgabry/titanic/a-journey-through-titanic该文章...
2020-04-26 18:10:58 6717 1
原创 数据挖掘算法和实践(三):朴素贝叶斯(mushrooms蘑菇数据集)
朴素贝叶斯同样是一种常用的分类算法,经常用于垃圾邮件分类中,该算法依据概率论中朴素贝叶斯定理建立模型,前提是假设各个特征之间相互独立,其数学原理很容易理解:如果你看到一个人总是做好事,则会推断那个人多半会是一个好人。这就是说,当你不能准确判断时候,可以依靠事物特定本质相关的事件出现的多少(概率)作为判断依据,贝叶斯定理:该公式表示在B发生的条件下A发生的条件概率,等于A事件发生条件下B事件...
2020-04-26 17:43:54 8443 2
原创 数据挖掘算法和实践(二):决策树(iris鸢尾花数据集)
决策树是直观运用概率分析的树形分类器,是很常用的分类方法,属于监管学习,决策树分类过程是从根节点开始,根据特征属性值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。比如说买瓜的时候,根据瓜的某些特征属性直观判断瓜的好坏,下图依次根据纹理清晰度、根蒂、色泽、触感4个进行分类,生活中我们会将某个最重要或最明显的分类属性放在第一位,然后是次重要属性,这很符合我们平常的判断思维,这就...
2020-04-26 14:39:03 12110
原创 数据挖掘算法和实践(一):线性回归和逻辑回归(house_price数据集)
数据挖掘算法基于线性代数、概率论、信息论推导,深入进去还是很有意思的,能够理解数学家、统计学家、计算机学家的智慧,这个专栏从比较简单的常用算法入手,后续将研究基于TensorFlow的高级算法,最好能够参与到人脸识别和NLP的实际项目中,做出来一定的效果,希望能坚持。一、理解线性回归模型首先讲回归模型,回归模型研究的是因变量(目标)和自变量(预测器)之间的关系,因变量可以是连续也可以离散,...
2020-04-24 10:10:15 6227
原创 虚拟机部署Ambari + HDP 2.6.X 版本
HDP的部署同CDH类似,步骤分为ambari的部署和hdp的部署,先以1台为例(内存>6G,磁盘划分/至少40G,/data/10G),后续节点可以通过扩容方式加入集群,可参考:https://blog.csdn.net/qq_32593713/article/details/81429573
2020-04-13 14:48:20 5902
原创 虚拟机部署CDH的手册(CM + Cloudera Hadoop 6.1.0)
vm虚拟机内安装CM+CDH6.1.0,本机资源有限,教程先以1台为例,后续节点可以通过扩容方式加入,所以分为两个步骤:cm节点部署,和集群的扩容; 1、准备cm的rpm包,cdh的parcel包:cm的rpm包:https://archive.cloudera.com/cm6/6.1.0/redhat7/yum/RPMS/x86_64/cdh的parcels包:ht...
2020-04-09 16:55:44 5978
原创 kafka实践(九):kafka/bin目录下的sh脚本工具
后续将从kafka源码分析角度学习,接《kafka实践四:使用IDEA阅读Kafka源码》内容,https://blog.csdn.net/yezonggang/article/details/98212267。idea中打开kafka源码,第一个目录即为bin目录,其中提供各种内置的集群管理工具(启停、优化)。# kafka/bin目录下的集群管理工具connect-distri...
2020-04-20 11:22:22 6315
mysql5.7离线安装包
2023-03-27
DecisionTree.RandomForest.ipynb
2021-01-20
Softmax_MNIST.ipynb
2020-05-28
LinearRegression.ipynb
2020-05-22
CDH-5.14搭建手册v3.docx
2020-05-21
47_Flume、Logstash、Filebeat调研报告
2019-05-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人