wyn1175397098zt-CSDN博客

原创页面日志的服务器端的清洗和预处理

对于实时要求要宽松的应用场景下，一般的都是进行离线处理，而日志需要清洗和预处理的原因：识别流量攻击，网络爬虫和流量作弊（虚假流量）。页面日志是互联网分析和大数据应用的基础源数据，在实际应用中，往往存在占一定比例的虚假或者恶意流量日志，导致分析指标的较大偏差。为此，需要对所采集的日志进行合法性校验，依托算法识别非正常的流量并归纳出对应的过滤规则集加以过滤。数据缺项补正。为了遍历后续的日志应用和保...

2018-05-08 17:47:39 437

原创 java内存划分

程序计数器（线程私有）：特点：线程创建时创建，执行本地方法时其值为undefined。虚拟机栈（线程私有）：特点：（栈内存）为虚拟机执行java方法服务：方法调用时创建栈帧-->局部变量表-->局部变量，对象引用如果线程请求的栈深度超出了虚拟机锁允许的深度，就会出现StackOverFlowError。-Xss规定...

2018-04-25 17:39:57 270

转载 webx的简单讲解

从官方的说明来看，WebX的定位并不仅仅是Web框架，而是强调了框架的灵活性和扩展性。webx = spring+组件+velocity创建web应用后。首先看一下整个代码的目录的结构。包含java和webapp。java包下代码：后台逻辑的实现。 webapp是网站的根目录。分别对应module和templates。Module：承担控制器的职责 Controller。负责接收客户端的数据的输...

2018-04-25 17:11:14 477

原创 spark调优

1.代码调优：避免创建重复的RDD复用同一个RDD对多次使用的RDD进行持久化如何选择一种最合适的持久化策略呢？答： cache--MEMORY_ONLY; persist：MEMORY_ONLY，MEMORY_ONLY_SER,MEMORY_AND_DISK_SERcheckpoint:如果一个RDD的计算时间比较长或者计算起来比较复杂。一般将这个RDD的计算结果保存到HDFS上，这样数据...

2018-04-15 20:34:44 211

原创 spark的cache和checkpoint的区别

要知道区别，就要首先知道实现的原理和使用的场景 cache就是讲共用的或者重复使用的RDD按照持久化的级别进行缓存。 checkpoint 就是将业务非常长的逻辑计算的中间结果缓存到HDFS上，他的实现原理是：首先找打stage最后的finalRDD，然后按照RDD的依赖关系回溯，找到使用checkpoint的RDD。然后...

2018-04-15 10:44:20 1666

原创 scala的简单语法

数据类型： byte 8bit的有符号数字，范围在 -128 --127 short 16bit 有符号数字，范围在-32768 --32767 int 32 bit 有符号数字 long 64bit 有符号数字 float 32bit单精度浮点数 double 64 bit 双精度浮点数 char 16bit 字符 String 字符串 ...

2018-04-14 19:08:15 155

原创逻辑回归算法的优化

一：有无截距：如上图。可以知道，有截距的线条数比无截距的线条数（过原点的线条）要多。所以在选择逻辑回归的时候，通常要设置截距。增加正确的概率。代码： val lr = new LogisticRegressionWithSGD() ----创建逻辑回归对象 lr.setIntercept(true) -...

2018-04-14 18:00:26 3866

原创 sparkstreaming的执行流程

sparkstreaming是准实时处理框架（微批处理：可以设置时间间隔）通过上图总结： receiver task 是 7*24h一直在执行，一直接收数据，将接受到的数据保存到batch（该一批次的时间间隔bacth interval是自己写的，本例中是5s即batch interval=5s）中，那么就把接收到的数据每隔5s切割刀一个batch中，因为batch是没有分布式计算特性的，但...

2018-04-13 14:45:18 512

原创模型评估标准-AUC

图中表格里面的数据的看法是：P和N分别加上单元格内的T（true）或者F（false）举例：假设我们有60个正样本，40个负样本，我们要找出所有的正样本。系统预测出50个，其中只有40个是真正的正样本，计算上述各指标： TP：将正类预测为正类数 40 ...

2018-04-08 11:44:32 473

原创 Kmeans聚类算法

Kmeans聚类算法：K均值聚类聚类：给事物打标签，寻找同一个组内的个体之间的一些潜在的相似模式。力图找到数据的自然分组Kmeans。聚类是一种无监督的机器学习任务，他可以自动将数据划分成类cluster。因此聚类分组不需要提前被告知所划分的组应该是什么样的。因为我们甚至可能都不知道我们寻找什么。所以聚类是用于只是发现而不是预测。列入下图。 ...

2018-04-04 11:02:35 780

原创逻辑回归简单的代码（scala实现）

package com.sxt.scala.lrimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.mllib.regression.LabeledPointimport org.apache.spark.mllib.linalg.Vectorsimport org...

2018-04-04 10:34:14 1123

原创逻辑回归算法的理解

逻辑回归算法又称logistic回归，是一种广义的线性回归模型，逻辑回归是一种用于分类的算法。最常见的问题如医生看病时。需要望，闻，问，切之后判断病人是否生病或者生了什么病。其中望，闻，问，切就是输入即特征数据，而是否生病就相当于获取因变量y，也就是分类的结果。逻辑回归的公式： z=w0+w1x1+w2x2+w3x3+w...

2018-04-04 10:27:18 493

原创 spark的原理

spark是一个微批处理的计算框架。基于内存的计算框架注意：不是实时计算框架。因为spark处理的数据是一定时间内的数据。你可以把这个时间设置的很小很小。例如1s。举个例子：大家都做过电梯或者扶梯。扶梯就是实时的--strom。电梯就是微实时的，它是一定的时间后，成批次的传送人--sparkspark的底层是RDD（分布式数据集）。RDD有五个主要的特性：一：RDD是有一系列的partition组...

2018-04-03 17:15:37 141

wyn1175397098zt的博客