scala
文章平均质量分 74
赵侠客
一个独立思考的开发者
展开
-
Idea 使用Maven创建Spark WordCount 案例
文章出处 http://blog.csdn.net/whzhaochao/article/details/72358215写在前面一直想学习一下大数相关知识,之前感觉门槛有点高,跑一个HelloWorld需要安装配置一大堆东西,最近有点时间,重新想学习一下大数据相关知识,这次我选择了Scala+Spark,感觉入门比较容易,也是现在大数据主流使用的技术吧,想升职加薪,撑握大数据分析还是很有必要的!M原创 2017-05-17 10:57:48 · 6998 阅读 · 0 评论 -
Spark 加强版WordCount ,统计日志中文件访问数量
原文地址:http://blog.csdn.net/whzhaochao/article/details/72416956写在前面学习Scala和Spark基本语法比较枯燥无味,搞搞简单的实际运用可以有效的加深你对基本知识点的记忆,前面我们完成了最基本的WordCount功能的http://blog.csdn.net/whzhaochao/article/details/72358215,这篇主要是原创 2017-05-17 17:25:13 · 8445 阅读 · 2 评论 -
使用SparkSQL 分析日志中IP数、流量等数据
写在前面前面文章中,我们使用Spark RDD从非结构化的日志文件中分析出了访问独立IP数,单个视频访问独立IP数和每时CDN流量,这篇文章主要介绍使用Spark SQL从结构化的数据中完成这些数据的分析,如下图所有,先将日志文件结构化成csv文件,此文件可从源码cdn.csv中获取Pom文件中添加SparkSQL依赖原创 2017-05-19 15:06:43 · 5689 阅读 · 1 评论 -
使用spark TF-IDF特征计算文章间相似度
写在前面计算字符串之前的相似度可以使用 Levenshtein distance(最小编辑距离)来实现,JAVA实现可以参考http://blog.csdn.net/ironrabbit/article/details/18736185,计算新闻标题间的相似度间可以使用这个算法,如果是计算整篇文章间的相似度使用更适合使用:分词–>特征提取–>向量空间–>计算向量相似度,这样的流程,本文介绍方法纯属个原创 2017-06-23 12:03:11 · 6036 阅读 · 3 评论 -
实战SparkStream+Kafka+Redis实时计算商品销售额
写在前面2016年天猫双十一当天,零点的倒计时话音未落,52秒交易额冲破10亿。随后,又迅速在0时6分28秒,达到100亿!每一秒开猫大屏上的交易额都在刷新,这种时实刷新的大屏看着感觉超爽。天猫这个大屏后面的技术应该是使用流计算,阿里使用Java将Storm重写了,叫JStrom(https://github.com/alibaba/jstorm),最近学习SparkStream和Kafka,可以简原创 2017-08-30 16:45:39 · 13695 阅读 · 8 评论