自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

叶子叶来

持续学习~~ https://github.com/yezonggang

  • 博客(10)
  • 资源 (25)
  • 收藏
  • 关注

转载 数据挖掘算法和实践(七):集成学习

集成学习是通过构建并结合多个学习器来完成学习任务,如下图,集成学习通过将多个学习器结合,获得比单一学习器显著优越的泛化性能。集成学习分为同质集成和异质集成,如果个体学习器全是一种算法称为同质集成,如果由不同算法生成,称为异质集成。基学习器是对于同质集成说的。要获得好的集成,个体学习器应该“好而不同”。如下图,图1中每个分类器只有66.6%的精度,集成之后精度为100%,图2中集成之后性...

2020-04-30 09:44:13 5741

原创 数据挖掘算法和实践(六):seaborn数据可视化探索(tips 数据集)

seaborn是一个面向对象作图工具,直译是海洋生物,tips 是小费数据集,本次使用seaborn学习数据分布的探索,在遇到新的数据集合时候,分析问题不至于无从下手;关于使用seaborn,参考官网 http://seaborn.pydata.org/index.htmlimport seaborn as snsimport pandas as pd import matplotl...

2020-04-29 09:10:28 9024 2

原创 2016kaggle大数据比赛:泰坦尼克号titanic的乘客生存预测模型剖析

titanic乘客的生存预测是数据挖掘的入门级实例,根据船上乘客的多维特征预测事故发生后乘客的生还几率,属于监督学习中典型的分类问题。本文结合对数据挖掘流程的理解和经典案列,呈现数据挖掘过程。该模型属于监督学习,需要训练集和数据集:数据集地址:https://www.kaggle.com/omarelgabry/titanic/a-journey-through-titanic该文章...

2020-04-26 18:10:58 6717 1

原创 数据挖掘算法和实践(四):支持向量机(iris鸢尾花数据集)

支持向量机同样是一种分类算法,可以理解是一种“降维打击”,比较晦涩难懂;

2020-04-26 17:46:45 8202 1

原创 数据挖掘算法和实践(三):朴素贝叶斯(mushrooms蘑菇数据集)

朴素贝叶斯同样是一种常用的分类算法,经常用于垃圾邮件分类中,该算法依据概率论中朴素贝叶斯定理建立模型,前提是假设各个特征之间相互独立,其数学原理很容易理解:如果你看到一个人总是做好事,则会推断那个人多半会是一个好人。这就是说,当你不能准确判断时候,可以依靠事物特定本质相关的事件出现的多少(概率)作为判断依据,贝叶斯定理:该公式表示在B发生的条件下A发生的条件概率,等于A事件发生条件下B事件...

2020-04-26 17:43:54 8443 2

原创 数据挖掘算法和实践(二):决策树(iris鸢尾花数据集)

决策树是直观运用概率分析的树形分类器,是很常用的分类方法,属于监管学习,决策树分类过程是从根节点开始,根据特征属性值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。比如说买瓜的时候,根据瓜的某些特征属性直观判断瓜的好坏,下图依次根据纹理清晰度、根蒂、色泽、触感4个进行分类,生活中我们会将某个最重要或最明显的分类属性放在第一位,然后是次重要属性,这很符合我们平常的判断思维,这就...

2020-04-26 14:39:03 12110

原创 数据挖掘算法和实践(一):线性回归和逻辑回归(house_price数据集)

数据挖掘算法基于线性代数、概率论、信息论推导,深入进去还是很有意思的,能够理解数学家、统计学家、计算机学家的智慧,这个专栏从比较简单的常用算法入手,后续将研究基于TensorFlow的高级算法,最好能够参与到人脸识别和NLP的实际项目中,做出来一定的效果,希望能坚持。一、理解线性回归模型首先讲回归模型,回归模型研究的是因变量(目标)和自变量(预测器)之间的关系,因变量可以是连续也可以离散,...

2020-04-24 10:10:15 6227

原创 虚拟机部署Ambari + HDP 2.6.X 版本

HDP的部署同CDH类似,步骤分为ambari的部署和hdp的部署,先以1台为例(内存>6G,磁盘划分/至少40G,/data/10G),后续节点可以通过扩容方式加入集群,可参考:https://blog.csdn.net/qq_32593713/article/details/81429573

2020-04-13 14:48:20 5902

原创 虚拟机部署CDH的手册(CM + Cloudera Hadoop 6.1.0)

vm虚拟机内安装CM+CDH6.1.0,本机资源有限,教程先以1台为例,后续节点可以通过扩容方式加入,所以分为两个步骤:cm节点部署,和集群的扩容; 1、准备cm的rpm包,cdh的parcel包:cm的rpm包:https://archive.cloudera.com/cm6/6.1.0/redhat7/yum/RPMS/x86_64/cdh的parcels包:ht...

2020-04-09 16:55:44 5978

原创 kafka实践(九):kafka/bin目录下的sh脚本工具

后续将从kafka源码分析角度学习,接《kafka实践四:使用IDEA阅读Kafka源码》内容,https://blog.csdn.net/yezonggang/article/details/98212267。idea中打开kafka源码,第一个目录即为bin目录,其中提供各种内置的集群管理工具(启停、优化)。# kafka/bin目录下的集群管理工具connect-distri...

2020-04-20 11:22:22 6315

自己总结的元动力java教程的文档

内容是元动力的java教程文档压缩包,非常详尽且有参考意义,包括java基础,spring生态,dao层的组件,中间件等;

2023-06-25

mysql5.7离线安装包

mysql5.7离线安装包,用于离线安装mysql,但需要yum配置,安装脚本已同步到博客,请查看:https://yezonggang.blog.csdn.net/article/details/129163112

2023-03-27

bayes.rar贝叶斯算法的使用和案例

贝叶斯算法分享心得体会及其使用。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

2021-06-15

sklearn.rar

内容包含sklearn使用时候的快速检索查询使用方法。。。。。。。。。。。。。。。。。。。。

2021-06-13

JuypterNotebook.7z

jupyternotebook压缩包,仅留做备份使用。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

2021-05-26

linux-svn.docx

linux下部署SVN和tortoisSvn的使用

2021-02-03

基于 jupyterlab的决策树模型,decision_tree.zip

基于 jupyterlab的决策树模型,decision_tree.zip

2021-01-20

基于jupyter的贝叶斯模型-bayes.zip

基于jupyter的贝叶斯模型-bayes.zip

2021-01-20

video_spyder.ipynb

video_spyder.ipynb 爬取视频的爬虫

2021-01-20

image_spyder1.ipynb

image_spyder1.ipynb动态爬取动漫图片

2021-01-20

paper_spyder1.ipynb

爬虫,爬取表单

2021-01-20

数据挖掘.xmind

数据挖掘.xmind,详细描述数据挖掘学习路径;

2021-01-20

K-means.zip

基于jupyter+python的k均值算法模型,包含西瓜数据集和模型

2021-01-20

DecisionTree.RandomForest.ipynb

包含基于jupyterlab + python的kaggle经典实战案例,离职分析,通过随机森林算法完成数据可视化和展示,包含数据集合算法模型;

2021-01-20

Softmax_MNIST.ipynb

fashion_MNIST是一个手写图像分类数据集,主要是一些穿衣搭配的图表,数据集比较小,是一个适合练手的数据集,也是第一个多分类实例,使用softmax损失函数进行训练;softmax保证输出的分类是一个概率,且所以分类的概率结果加起来是1;

2020-05-28

LinearRegression.ipynb

使用TensorFlow实现基础挖掘算法,边实践边学习,资源是notebook的保存格式,请使用notebook打开,csdn博客有其他数据挖掘算法内容;

2020-05-22

CDH-5.14搭建手册v3.docx

CDH是一个整合的大数据平台,文档提供详细的CDH-5.14搭建步骤,包含基本的本地yum源和parcel包和rpm包制作,适合大数据平台初级探索者和学习者

2020-05-21

43_Ansible工具的使用教程

ansible作为批量分发工具,在自动化运维中试一把利器,文档详细说明了ansible的使用教程及指令说明;

2019-05-06

47_Flume、Logstash、Filebeat调研报告

基于flume+kafka+实时计算引擎(storm,spark,flink)的实时计算框架目前是比较火的一个分支,在实时数据采集组件中flume扮演着极为重要角色,logtash是ELK的重要组件部分,filebeat也是一个实时采集工具;

2019-05-06

Flink在CDH配置部署及读取kafka的实例验证;

CDH目前不带flink组件,文档为Flink在CDH集群上的配置部署及读取kafka的实例验证;

2019-05-06

leetcode150题-JAVA

有代码,有答案,而且会有一些面试的经验,值得拥有!

2015-11-07

python实现logistic回归模型和训练数据

logistics回归模型测试代码及测试数据。

2015-08-19

python实现Knn算法和错误率的代码

机器学习实战Knn算法的python实现,训练数据,测试数据。

2015-08-19

mysql-connector-java.jar

MySQL connector to Java

2015-05-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除