小哈-whzhaochao

飞奔的小哈

配合Kibana记录一次 ElasticSearch JVM 调优实战

先上图 主要问题:  GC count 中Old和YoungGC在10点之前次数比较频繁   1、第一步优化       在JVM Heap图表中可以看到在10点之前UsedHeap基本上等于Max Heap,所以引起频繁的 Old GC,修改ElasticSearch配置文件confi...

2018-12-10 11:03:03

阅读数:3

评论数:0

实战SparkStream+Kafka+Redis实时计算商品销售额

写在前面2016年天猫双十一当天,零点的倒计时话音未落,52秒交易额冲破10亿。随后,又迅速在0时6分28秒,达到100亿!每一秒开猫大屏上的交易额都在刷新,这种时实刷新的大屏看着感觉超爽。天猫这个大屏后面的技术应该是使用流计算,阿里使用Java将Storm重写了,叫JStrom(https://...

2017-08-30 16:45:39

阅读数:5153

评论数:5

使用Spark完成基于TF-IDF特征的新闻热点聚类

写在前面互联网各个地方时时刻刻都在发生着这样或者那样的事件,如果使用人工去观察根本无法全文们的知晓哪地方发生了什么热点事件,做为主流媒体更喜欢第一时间得知热点事件的发生,好及时的紧靠热点。舆情监控的目的就是及时的得知互联网上发生的热点事件,舆情监控也是媒体大数据的一项重要工作。本文简单实现一个简单...

2017-06-23 17:43:34

阅读数:4773

评论数:2

使用spark TF-IDF特征计算文章间相似度

写在前面计算字符串之前的相似度可以使用 Levenshtein distance(最小编辑距离)来实现,JAVA实现可以参考http://blog.csdn.net/ironrabbit/article/details/18736185,计算新闻标题间的相似度间可以使用这个算法,如果是计算整篇文章...

2017-06-23 12:03:11

阅读数:2641

评论数:1

使用Spark MLlib 完成新闻自动分类

写在前面最近学习了一点文本挖掘相关知道,刚刚接触到一点皮毛,刚好学了点Spark,所有就找个了小例子玩了一下,算法和实现都不太难,比较适合看公式一脸蒙逼,无聊想来点实际性Demo玩一下基本流程如图所示为新闻自己分类的基本流程,其中主要包含以下几点语料分类语料库用搜狗实验室http://www.so...

2017-06-19 17:54:08

阅读数:495

评论数:0

使用MapReduce计算框架统计CDN日志IP数、流量等数据

写在前面前面两篇文章中,我们使用Spark RDD及Spark Streaming 从CDN日志中计算出了独立IP数、每个视频独立IP数、每时CDN流量,这里我们将使用MapReduce计算框架,从同样的日志中完成相同的计算,前提是首页要搭建好Hadoop及HDFS运行环境独立IP计算计算思路 M...

2017-05-26 15:31:05

阅读数:1239

评论数:1

使用SparkSQL 分析日志中IP数、流量等数据

写在前面前面文章中,我们使用Spark RDD从非结构化的日志文件中分析出了访问独立IP数,单个视频访问独立IP数和每时CDN流量,这篇文章主要介绍使用Spark SQL从结构化的数据中完成这些数据的分析,如下图所有,先将日志文件结构化成csv文件,此文件可从源码cdn.csv中获取Pom文件中添...

2017-05-19 15:06:43

阅读数:3332

评论数:1

Spark 加强版WordCount ,统计日志中文件访问数量

原文地址:http://blog.csdn.net/whzhaochao/article/details/72416956写在前面学习Scala和Spark基本语法比较枯燥无味,搞搞简单的实际运用可以有效的加深你对基本知识点的记忆,前面我们完成了最基本的WordCount功能的http://blo...

2017-05-17 17:25:13

阅读数:5892

评论数:2

Idea 使用Maven创建Spark WordCount 案例

文章出处 http://blog.csdn.net/whzhaochao/article/details/72358215写在前面一直想学习一下大数相关知识,之前感觉门槛有点高,跑一个HelloWorld需要安装配置一大堆东西,最近有点时间,重新想学习一下大数据相关知识,这次我选择了Scala+S...

2017-05-17 10:57:48

阅读数:2071

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭