大数据
文章平均质量分 74
赵侠客
一个独立思考的开发者
展开
-
使用MapReduce计算框架统计CDN日志IP数、流量等数据
写在前面前面两篇文章中,我们使用Spark RDD及Spark Streaming 从CDN日志中计算出了独立IP数、每个视频独立IP数、每时CDN流量,这里我们将使用MapReduce计算框架,从同样的日志中完成相同的计算,前提是首页要搭建好Hadoop及HDFS运行环境独立IP计算计算思路Map 在map中将每行的IP地址提取出来,并将(ip,1)输出Reduce 在reduce中相同的ip原创 2017-05-26 15:31:05 · 2744 阅读 · 2 评论 -
Idea 使用Maven创建Spark WordCount 案例
文章出处 http://blog.csdn.net/whzhaochao/article/details/72358215写在前面一直想学习一下大数相关知识,之前感觉门槛有点高,跑一个HelloWorld需要安装配置一大堆东西,最近有点时间,重新想学习一下大数据相关知识,这次我选择了Scala+Spark,感觉入门比较容易,也是现在大数据主流使用的技术吧,想升职加薪,撑握大数据分析还是很有必要的!M原创 2017-05-17 10:57:48 · 7012 阅读 · 0 评论 -
Spark 加强版WordCount ,统计日志中文件访问数量
原文地址:http://blog.csdn.net/whzhaochao/article/details/72416956写在前面学习Scala和Spark基本语法比较枯燥无味,搞搞简单的实际运用可以有效的加深你对基本知识点的记忆,前面我们完成了最基本的WordCount功能的http://blog.csdn.net/whzhaochao/article/details/72358215,这篇主要是原创 2017-05-17 17:25:13 · 8462 阅读 · 2 评论 -
使用SparkSQL 分析日志中IP数、流量等数据
写在前面前面文章中,我们使用Spark RDD从非结构化的日志文件中分析出了访问独立IP数,单个视频访问独立IP数和每时CDN流量,这篇文章主要介绍使用Spark SQL从结构化的数据中完成这些数据的分析,如下图所有,先将日志文件结构化成csv文件,此文件可从源码cdn.csv中获取Pom文件中添加SparkSQL依赖原创 2017-05-19 15:06:43 · 5754 阅读 · 1 评论 -
使用spark TF-IDF特征计算文章间相似度
写在前面计算字符串之前的相似度可以使用 Levenshtein distance(最小编辑距离)来实现,JAVA实现可以参考http://blog.csdn.net/ironrabbit/article/details/18736185,计算新闻标题间的相似度间可以使用这个算法,如果是计算整篇文章间的相似度使用更适合使用:分词–>特征提取–>向量空间–>计算向量相似度,这样的流程,本文介绍方法纯属个原创 2017-06-23 12:03:11 · 6050 阅读 · 3 评论 -
使用Spark完成基于TF-IDF特征的新闻热点聚类
写在前面互联网各个地方时时刻刻都在发生着这样或者那样的事件,如果使用人工去观察根本无法全文们的知晓哪地方发生了什么热点事件,做为主流媒体更喜欢第一时间得知热点事件的发生,好及时的紧靠热点。舆情监控的目的就是及时的得知互联网上发生的热点事件,舆情监控也是媒体大数据的一项重要工作。本文简单实现一个简单的新闻件事聚类。后期可以从各大主流媒体网站爬取数据,第隔一段时间聚类一次,如果一类报道中文章数据比较多,原创 2017-06-23 17:43:34 · 9073 阅读 · 11 评论 -
实战SparkStream+Kafka+Redis实时计算商品销售额
写在前面2016年天猫双十一当天,零点的倒计时话音未落,52秒交易额冲破10亿。随后,又迅速在0时6分28秒,达到100亿!每一秒开猫大屏上的交易额都在刷新,这种时实刷新的大屏看着感觉超爽。天猫这个大屏后面的技术应该是使用流计算,阿里使用Java将Storm重写了,叫JStrom(https://github.com/alibaba/jstorm),最近学习SparkStream和Kafka,可以简原创 2017-08-30 16:45:39 · 13746 阅读 · 8 评论 -
配合Kibana记录一次 ElasticSearch JVM 调优实战
先上图主要问题: GC count 中Old和YoungGC在10点之前次数比较频繁 1、第一步优化 在JVM Heap图表中可以看到在10点之前UsedHeap基本上等于Max Heap,所以引起频繁的 Old GC,修改ElasticSearch配置文件config/jvm.options, 修改 -Xms2g ,-Xmx2g,默认两个都是1g。-Xms2g...原创 2018-12-10 11:03:03 · 3431 阅读 · 0 评论