自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

wyn1175397098zt的博客

爱上java,爱上大数据

  • 博客(13)
  • 收藏
  • 关注

原创 页面日志的服务器端的清洗和预处理

对于实时要求要宽松的应用场景下,一般的都是进行离线处理,而日志需要清洗和预处理的原因: 识别流量攻击,网络爬虫和流量作弊(虚假流量)。页面日志是互联网分析和大数据应用的基础源数据,在实际应用中,往往存在占一定比例的虚假或者恶意流量日志,导致分析指标的较大偏差。为此,需要对所采集的日志进行合法性校验,依托算法识别非正常的流量并归纳出对应的过滤规则集加以过滤。 数据缺项补正。为了遍历后续的日志应用和保...

2018-05-08 17:47:39 437

原创 java内存划分

程序计数器(线程私有):        特点:线程创建时创建,执行本地方法时其值为undefined。虚拟机栈(线程私有):        特点:(栈内存)为虚拟机执行java方法服务:方法调用时创建栈帧-->局部变量表-->局部变量,对象引用                    如果线程请求的栈深度超出了虚拟机锁允许的深度,就会出现StackOverFlowError。-Xss规定...

2018-04-25 17:39:57 270

转载 webx的简单讲解

从官方的说明来看,WebX的定位并不仅仅是Web框架,而是强调了框架的灵活性和扩展性。webx = spring+组件+velocity创建web应用后。首先看一下整个代码的目录的结构。包含java和webapp。java包下代码:后台逻辑的实现。  webapp是网站的根目录。分别对应module和templates。Module:承担控制器的职责 Controller。负责接收客户端的数据的输...

2018-04-25 17:11:14 477

原创 spark调优

1.代码调优: 避免创建重复的RDD复用同一个RDD对多次使用的RDD进行持久化 如何选择一种最合适的持久化策略呢?答: cache--MEMORY_ONLY;  persist:MEMORY_ONLY,MEMORY_ONLY_SER,MEMORY_AND_DISK_SERcheckpoint:如果一个RDD的计算时间比较长或者计算起来比较复杂。一般将这个RDD的计算结果保存到HDFS上,这样数据...

2018-04-15 20:34:44 211

原创 spark的cache和checkpoint的区别

要知道区别,就要首先知道实现的原理和使用的场景    cache就是讲共用的或者重复使用的RDD按照持久化的级别进行缓存。    checkpoint 就是将业务非常长的逻辑计算的中间结果缓存到HDFS上,他的实现原理是:                首先找打stage最后的finalRDD,然后按照RDD的依赖关系回溯,找到使用checkpoint的RDD。                然后...

2018-04-15 10:44:20 1666

原创 scala的简单语法

数据类型 :    byte  8bit的有符号数字,范围在 -128 --127    short  16bit 有符号数字,范围在-32768 --32767    int 32 bit 有符号数字    long 64bit 有符号数字    float 32bit单精度浮点数    double 64 bit 双精度浮点数    char 16bit 字符    String 字符串   ...

2018-04-14 19:08:15 155

原创 逻辑回归算法的优化

一:有无截距:        如上图。可以知道,有截距的线条数比无截距的线条数(过原点的线条)要多。所以在选择逻辑回归的时候,通常要设置截距。增加正确的概率。        代码:                val lr = new LogisticRegressionWithSGD()   ----创建逻辑回归对象                lr.setIntercept(true) -...

2018-04-14 18:00:26 3866

原创 sparkstreaming的执行流程

sparkstreaming是准实时处理框架(微批处理:可以设置时间间隔)通过上图总结:    receiver task 是 7*24h一直在执行,一直接收数据,将接受到的数据保存到batch(该一批次的时间间隔bacth interval是自己写的,本例中是5s即batch interval=5s)中,那么就把接收到的数据每隔5s切割刀一个batch中,因为batch是没有分布式计算特性的,但...

2018-04-13 14:45:18 512

原创 模型评估标准-AUC

图中表格里面的数据的看法是:P和N分别加上单元格内的T(true)或者F(false)举例:    假设我们有60个正样本,40个负样本,我们要找出所有的正样本。系统预测出50个,其中只有40个是真正的正样本,计算上述各指标:                                                             TP:将正类预测为正类数  40          ...

2018-04-08 11:44:32 473

原创 Kmeans聚类算法

Kmeans聚类算法:K均值聚类            聚类:给事物打标签,寻找同一个组内的个体之间的一些潜在的相似模式。力图找到数据的自然分组Kmeans。            聚类是一种无监督的机器学习任务,他可以自动将数据划分成类cluster。因此聚类分组不需要提前被告知所划分的组应该是什么样的。因为我们甚至可能都不知道我们寻找什么。所以聚类是用于只是发现而不是预测。列入下图。     ...

2018-04-04 11:02:35 780

原创 逻辑回归简单的代码(scala实现)

package com.sxt.scala.lrimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.mllib.regression.LabeledPointimport org.apache.spark.mllib.linalg.Vectorsimport org...

2018-04-04 10:34:14 1123

原创 逻辑回归算法的理解

    逻辑回归算法又称logistic回归,是一种广义的线性回归模型,逻辑回归是一种用于分类的算法。    最常见的问题如医生看病时。需要望,闻,问,切之后判断病人是否生病或者生了什么病。其中望,闻,问,切就是输入即特征数据,而是否生病就相当于获取因变量y,也就是分类的结果。    逻辑回归的公式:                            z=w0+w1x1+w2x2+w3x3+w...

2018-04-04 10:27:18 493

原创 spark的原理

spark是一个微批处理的计算框架。基于内存的计算框架注意:不是实时计算框架。因为spark处理的数据是一定时间内的数据。你可以把这个时间设置的很小很小。例如1s。举个例子:大家都做过电梯或者扶梯。扶梯就是实时的--strom。电梯就是微实时的,它是一定的时间后,成批次的传送人--sparkspark的底层是RDD(分布式数据集)。RDD有五个主要的特性:一:RDD是有一系列的partition组...

2018-04-03 17:15:37 141

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除