自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 对于多元线性回归理解和推导过程

多元线性回归一、多元线性回归理解通过一元线性回归的实现和推理,我清楚了一元线性回归的用法然后来到多元线性回归线性,图像上任意一点的坐标,y值都是x值的a倍.我们把这种横纵坐标始终呈固定倍数的关系叫做"线性".线性函数的图像是一条直线.所以我们知道了多元线性回归函数的图像一定也是一条直线,多元,顾名思义,就是表达式中存在多个自变量(属性),多元线性回归就是:用多个x(变量或属性)与结果y的关系式 来描述一些散列点之间的共同特性.这些x和一个y关系的图像并不完全满足任意两点之间的关系(两点一线),但这

2020-09-18 15:34:05 6607 3

原创 衡量线性回归算法准确度的几个指标

简单叙述线性回归算法准确度的几个指标1、均方差均方差是通过对所有predict产生的值减去测试数据的原有值产生的差值进行平方,然后求和,再去除以所有predict的数据个数m。2、均方根误差均方根误差是通过对所有predict产生的值减去测试数据的原有值产生的差值进行平方,然后求和,再去除以所有predict的数据个数m,最后进行开方,其实就是MSE进行开方。3、平均绝对误差平均绝对误差是通过对所有predict产生的值减去测试数据的原有值产生的差值进行求和,再去除以所有predict的数据

2020-09-17 19:28:47 10216

原创 最大熵模型学习优化案例

最大熵模型最大熵模型的学习等价于约束最优化问题:案例:已知有A,B,C,D,E五种可能出现的情况,已知A,B出现的概率之和是3/10,所有五个出现概率之和为1,使用最大熵模型进行优化获得这五种情况的概率分布。该问题主要通过使用拉格朗日的对偶性,然后通过求解对偶最优化问题得到解。所以我们有:第一步,求解原始问题:第二步,利用拉格朗日乘子法:第三步:对偶问题求解:最终结果为:这里我们先固定w0和w1,然后对L(P,w)求偏导数,可以带入得到后我们可以通过另这些偏导为0,解得:

2020-09-11 11:33:38 972

原创 决策树的一些知识

机器学习之决策树决策树决策树的定义:决策树示意图,圆点——内部节点,方框——叶节点决策树的构造:决策树的特点:信息增益:特征选择案例(统计学习方法):决策树的生成决策树决策树的定义:分类决策树模型是一种描述对实例进行分类的树形结构,决策树由结点和有向边组成,结点有两种类型:内部结点和叶结点。内部节点表示一个特征或属性,叶结点表示一个类。决策树示意图,圆点——内部节点,方框——叶节点决策树学习的目标:根据给定的训练数据集构建一个决策树模型,使它能够对实例进行正确的分类。决策树学习的本质:从训练集

2020-09-03 10:32:18 850

原创 FLUME自定义拦截器示例

Flume自定义拦截器代码示例-----------------------自定义拦截器-------------------------public class InterceptorDemo implements Interceptor { private List<Event> opList; @Override public void initialize() { } @Override public Event interce

2020-07-29 10:22:15 164

原创 spark处理复杂json数据案例

spark处理json数据一、导入数据源数据格式是这样的1593136318832|{ "cm":{ "ln":"-57.4", "sv":"V2.7.1", "os":"8.2.9", "g":"N92TN1PB@gmail.com", "mid":"1", "nw":"WIFI", "l":"pt", "vc":"12", "hw":"1080*

2020-06-29 14:51:29 1234

原创 Spark连接MongoDB

spark连接mongodb1、准备spark版本: 2.4.5mongodb版本:3.2.22连接的数据库为events_db,表为users,管理员为test,密码为testmongo-spark-connector版本: 2.4.22、进行连接spark-shell --packages org.mongodb.spark:mongo-spark-connector_2.11:2.4.2进入如下界面3、操作请务必先停止sparkspark.stop然后就可以进行操作了连

2020-06-21 12:32:25 1149

原创 JAVA 连接 mongoDB

java连接mongoDB1. 启动mongoDB认证一、先启动mongoDB,进入mongoDB安装目录下bin文件夹中./mongod #启动mongo server服务,默认端口27017,默认允许本地连接二、创建管理员用户use admin #进入admin库db.createUser({user:"test",pwd:"password",roles[{role:"userAdminAnyDatabase","db":"admin"

2020-06-11 19:09:27 907

原创 flume往hbase或kafka写入数据

flume1. flume介绍flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来,尤其是在 Flume OG 的最后一个发行版本 0.9.4. 中,日志传输不稳定的现象尤为严重,为了解决这些问题,2011 年 10 月 22 号,

2020-06-10 14:14:52 308

原创 Hadoop,Zookeeper,Kafka 高可用集群搭建

高可用集群搭建1. 事先准备我们需要5台虚拟机或者5台服务器,它们的网络需要互通,并且需要配置hosts和各主机间免密登录等操作,以及相应脚本文件,具体详情请查阅以下博客1-5节还有一些相应脚本编写的章节:hadoop,zk,kafka简单集群搭建准备好这些之后我们就可以开始了2. 安装jdk一、先解压安装包cd /opt/install/[root@jerry1 install]# lshadoop-2.6.0-cdh5.14.2.tar.gz kafka_2.11-2.0.0.tgz

2020-06-08 19:20:35 473

原创 Hadoop,Zookeeper、Kafka简单集群搭建

搭建hadoop、zookeeper、kafka集群1. 创建虚拟机因为配置有限,这里我只创建3台虚拟机,配置足够的话可以创建多台或者使用多台搭载linux系统的服务器,这里只放部分虚拟机创建图.后面就按需求修改下或者直接暴力下一步就能完成。最后开机这样就行了2. 配置网络环境首先对jerry1进行网络配置vi /etc/sysconfig/network-scripts/ifcfg-ens33进去后进行修改和添加,修改ONBOOT为yes,增加底下的ip和网关、子网掩码

2020-06-03 21:53:21 651

原创 通过Java将Kafka数据写入HBase

Kafka数据写入Hbase本篇博客是关于通过java将kafka中一个消息队列的数据进行消费并写入Hbase中。1.准备create_namespace 'events_db'create 'events_db:user_friend','uf'2.源数据的处理我们通过flume将源数据写入kafka的topic当中,然后这个topic就已经具有所有需要处理的数据了,然后通过以下代码对数据进行处理,分为3个模块:1.write模块 ,消费kafka源数据,并调用handler中的ICus

2020-06-01 19:08:15 1694 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除