自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 问答 (1)
  • 收藏
  • 关注

原创 SparkCore基础

Spark简介1什么是SparkSpark是一个通用的可扩展的处理海量数据集的计算引擎。Spark集成离线计算,实时计算,SQL查询,机器学习,图计算为一体的通用的计算框架。2Spark特点(1)快:相比给予MR,官方表明基于内存计算spark要快mr100倍,基于磁盘计算spark要...

2019-09-30 14:47:03 919

原创 Redis

Redis1NosqlNosql(not only sql):非关系型的数据库管理系统非关系型的数据库,解决海量数据和大型集群产生的高并发,高可用,高性能问题数据库解决方案 , nosql不是来替代关系型数据库,只是补充。1.1Nosql的分类(1)键值(Key-Value...

2019-09-30 11:46:20 317

原创 Kafka高性能相关

Kafka高性能相关1高性能原因1.1 高效使用磁盘(1)顺序写磁盘,顺序写磁盘性能高于随机写内存(2)Append Only 数据不更新,无记录级的数据删除(只会整个segment删除)(3)充分利用Page Cache,I/O Scheduler将连续的小块写组装成大块的物理写从而提高性能,...

2019-09-30 10:25:39 226

原创 Kafka基础

Kafka基础1 消息队列1.1 什么是消息队列消息队列(MQ):消息+队列,保存消息的队列。消息的传输过程中的容器;主要提供生产、消费接口供外部调用做数据的存储和获取。1.2 为什么要有消息队列当网站面对教大的流量冲击,在网站系统中一般会有一个消息存储/缓存系统(即消息队列,也叫消息中间件),网站...

2019-09-30 09:48:05 497

原创 用户画像系统应用

用户画像系统应用1 用户信用等级分级比如在银行根据分级决定给用户贷款的额度,以及贷款的时长,那么怎么对用户分级呢?首先收集大量用户的数据,包括基本属性信息以及用户在使用银行的借记卡,信用卡等等。如果是运营商,用户的入网时间,套餐是什么,每个·月的通话时长消耗流量等,以及整个行为的模式,另外归属地在哪。相关的消费记录...

2019-09-29 01:00:11 512

原创 Log4j框架配置文件

Log4j框架配置文件1 Log4j的配置文件分类Log4j支持两种配置文件格式:一中是以log4j.properties ,另一种是 log4j.xml2 Log4j的配置文件例子##自定义日志的输出级别log4j.rootLogger=WARN, stdout##自定义日志log4j.logger...

2019-09-26 20:36:50 300

原创 神经网络

神经网络1神经网络基础1.1感知器为了理解神经网络,我们应该先理解神经网络的组成单元——神经元,神经元也叫做感知器。在线性回归模型中每一个输入值与对应权重的乘积之和得到的数据或通过激活函数来进行判别,下面我们看一下感知器一个感知器有如下组成部分:输入权值,一个感知器可以有多个...

2019-09-16 20:06:06 348

原创 Tensorflow线程队列与IO操作

目录 Tensorflow线程队列与IO操作1 线程和队列1.1 前言1.2队列1.3队列管理器1.4线程协调器2 文件读取2.1 流程2.2 文件读取API:3图像读取3.1 图像读取基本知识3.2图像基本操作3.3 图像读取API3.4图片批处理流程3.5 读取图片案...

2019-09-14 17:50:01 587

原创 Tensorflow基础

Tensorflow基础1 深度学习深度学习,如深度神经网络、卷积神经网络和递归神经网络已被应用 计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域 并获取了极好的效果。机器学习与深度学习的简单区别: 机器学习 深度学习 应用场景 指纹识别、特征物体检测等...

2019-09-14 11:18:08 243

原创 逻辑回归原理

逻辑回归原理1 逻辑回归简介logistic回归(LR),是一种广义的线性回归分析模型,常用于数据挖掘,疾病预测,经济预测等方面。优点:计算代价低,思路清晰易于理解和实现;缺点:它是一个线性的分类器,不使用额外策略,处理不来非线性问题(线性分类器的通病),容易欠拟合,分类精度可能不高。逻辑回归是一个名...

2019-09-09 20:29:35 933

原创 用户画像之Spark ML实现

用户画像之Spark ML实现1Spark ML简单介绍Spark ML是面向DataFrame编程的。Spark的核心开发是基于RDD(弹性分布式数据集),但是RDD,但是RDD的处理并不是非常灵活,如果要做一些结构化的处理,将RDD转换成DataFrame,DataFrame实际上就是行对象的RDD+schema,类似于原本的文本数...

2019-09-07 21:45:09 526

原创 用户画像系统

用户画像系统1 用户画像概述1.1什么是用户画像用户画像就是对现实世界中用户的数学建模。现实世界的用户通过自己各种各样的行为,浏览购买,或者收藏,等等这些行为会把自己的兴趣爱好等体现在这些行为中,比如喜欢看书就会有很多购买书的行为,行为就会把兴趣爱好暴露出来,我们就是要基于用户建模,把他兴趣的维度给划分清楚体现出来,...

2019-09-07 10:11:03 1033

原创 非监督学习

非监督学习1 什么是非监(unsupervised learning)督学习无监督学习,就是不受监督的学习,一种自由的学习方式。该学习方式不需要先验知识进行指导,而是不断地自我认知,自我巩固,最后进行自我归纳,在机器学习中,无监督学习可以被简单理解为不为训练集提供对应的类别标识(label)...

2019-09-06 20:56:20 938

原创 逻辑回归-分类算法

目录 逻辑回归-分类算法1 概述2sigmoid函数3 逻辑回归公式4 逻辑回归的损失函数5 均方误差与对数自然损失对比6sklearn逻辑回归API7 案例8 总结 逻辑回归-分类算法1...

2019-09-06 15:34:58 2733

原创 拟合与岭回归

目录 拟合与岭回归1 什么是过拟合与欠拟合2 模型复杂度3 鉴别欠拟合与过拟合4 过拟合解决方法5 岭回归(Ridge)6 模型的保存与加载 拟合与岭回归1 什么是过拟合与欠拟合通过下面两...

2019-09-06 00:20:01 876

原创 线性回归分析-回归算法

线性回归分析-回归算法1 回归算法之线性回归  回归问题的判定:目标是连续的,在指定区间内可以是任意一个数值。  线性回归的定义是:目标值预期是输入变量的线性组合。线性回归通过一个或多个自变量与因变量之间进行建模的回归分析。  一元线性回归:涉及到的变量只有一个  多元线性回归:涉及到的变量两个或两个以上...

2019-09-05 21:55:18 8487

原创 随机森林-集成学习方法(分类)

随机森林-集成学习方法(分类)1集成学习方法集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成单预测,因此优于任何一个单分类的做出预测。2 随机森林在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的...

2019-09-01 23:55:49 1496

原创 决策树-分类算法

决策树-分类算法1 认识决策树决策树是一种基本的分类方法,也可以用于回归。我们一般只讨论用于分类的决策树。决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程,它可以认为是if-then规则的集合。在决策树的结构中,每一个实例都被一条路径或者一条规则所覆盖。2 特征选择特征选择在于选取...

2019-09-01 01:10:45 604

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除