2020年04月_A叶子叶

12月 11月 10月 08月 07月 06月 05月 04月

转载数据挖掘算法和实践（七）：集成学习

集成学习是通过构建并结合多个学习器来完成学习任务，如下图，集成学习通过将多个学习器结合，获得比单一学习器显著优越的泛化性能。集成学习分为同质集成和异质集成，如果个体学习器全是一种算法称为同质集成，如果由不同算法生成，称为异质集成。基学习器是对于同质集成说的。要获得好的集成，个体学习器应该“好而不同”。如下图，图1中每个分类器只有66.6%的精度，集成之后精度为100%，图2中集成之后性...

2020-04-30 09:44:13 5741

原创数据挖掘算法和实践（六）：seaborn数据可视化探索（tips 数据集）

seaborn是一个面向对象作图工具，直译是海洋生物，tips 是小费数据集，本次使用seaborn学习数据分布的探索，在遇到新的数据集合时候，分析问题不至于无从下手；关于使用seaborn，参考官网 http://seaborn.pydata.org/index.htmlimport seaborn as snsimport pandas as pd import matplotl...

2020-04-29 09:10:28 9024 2

原创 2016kaggle大数据比赛:泰坦尼克号titanic的乘客生存预测模型剖析

titanic乘客的生存预测是数据挖掘的入门级实例，根据船上乘客的多维特征预测事故发生后乘客的生还几率，属于监督学习中典型的分类问题。本文结合对数据挖掘流程的理解和经典案列，呈现数据挖掘过程。该模型属于监督学习，需要训练集和数据集：数据集地址：https://www.kaggle.com/omarelgabry/titanic/a-journey-through-titanic该文章...

2020-04-26 18:10:58 6717 1

原创数据挖掘算法和实践（四）：支持向量机（iris鸢尾花数据集）

支持向量机同样是一种分类算法，可以理解是一种“降维打击”，比较晦涩难懂；

2020-04-26 17:46:45 8202 1

原创数据挖掘算法和实践（三）：朴素贝叶斯（mushrooms蘑菇数据集）

朴素贝叶斯同样是一种常用的分类算法，经常用于垃圾邮件分类中，该算法依据概率论中朴素贝叶斯定理建立模型，前提是假设各个特征之间相互独立，其数学原理很容易理解：如果你看到一个人总是做好事，则会推断那个人多半会是一个好人。这就是说，当你不能准确判断时候，可以依靠事物特定本质相关的事件出现的多少（概率）作为判断依据，贝叶斯定理：该公式表示在B发生的条件下A发生的条件概率，等于A事件发生条件下B事件...

2020-04-26 17:43:54 8443 2

原创数据挖掘算法和实践（二）：决策树（iris鸢尾花数据集）

决策树是直观运用概率分析的树形分类器，是很常用的分类方法，属于监管学习，决策树分类过程是从根节点开始，根据特征属性值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。比如说买瓜的时候，根据瓜的某些特征属性直观判断瓜的好坏，下图依次根据纹理清晰度、根蒂、色泽、触感4个进行分类，生活中我们会将某个最重要或最明显的分类属性放在第一位，然后是次重要属性，这很符合我们平常的判断思维，这就...

2020-04-26 14:39:03 12110

原创数据挖掘算法和实践（一）：线性回归和逻辑回归（house_price数据集）

数据挖掘算法基于线性代数、概率论、信息论推导，深入进去还是很有意思的，能够理解数学家、统计学家、计算机学家的智慧，这个专栏从比较简单的常用算法入手，后续将研究基于TensorFlow的高级算法，最好能够参与到人脸识别和NLP的实际项目中，做出来一定的效果，希望能坚持。一、理解线性回归模型首先讲回归模型，回归模型研究的是因变量（目标）和自变量（预测器）之间的关系，因变量可以是连续也可以离散，...

2020-04-24 10:10:15 6227

原创虚拟机部署Ambari + HDP 2.6.X 版本

HDP的部署同CDH类似，步骤分为ambari的部署和hdp的部署，先以1台为例(内存>6G，磁盘划分/至少40G，/data/10G)，后续节点可以通过扩容方式加入集群，可参考：https://blog.csdn.net/qq_32593713/article/details/81429573

2020-04-13 14:48:20 5902

原创虚拟机部署CDH的手册（CM + Cloudera Hadoop 6.1.0）

vm虚拟机内安装CM+CDH6.1.0，本机资源有限，教程先以1台为例，后续节点可以通过扩容方式加入，所以分为两个步骤：cm节点部署，和集群的扩容； 1、准备cm的rpm包，cdh的parcel包：cm的rpm包：https://archive.cloudera.com/cm6/6.1.0/redhat7/yum/RPMS/x86_64/cdh的parcels包：ht...

2020-04-09 16:55:44 5978

原创 kafka实践（九）：kafka/bin目录下的sh脚本工具

后续将从kafka源码分析角度学习，接《kafka实践四：使用IDEA阅读Kafka源码》内容，https://blog.csdn.net/yezonggang/article/details/98212267。idea中打开kafka源码，第一个目录即为bin目录，其中提供各种内置的集群管理工具（启停、优化）。# kafka/bin目录下的集群管理工具connect-distri...

2020-04-20 11:22:22 6315