小哈-whzhaochao

飞奔的小哈

排序:
默认
按更新时间
按访问量

《阿里巴巴Java开发手册》插件安装及使用

Idea安装IDEA版的插件已发布到IDEA官方仓库中(最低支持版本14.1.7,JDK1.7+),只需打开 Settings >> Plugins >> Browse repositories 输入 Alibaba 搜索一下便可以看到对应插件了,点击安装等待安装完成。至于...

2017-10-16 10:42:03

阅读数:351

评论数:0

实战SparkStream+Kafka+Redis实时计算商品销售额

写在前面2016年天猫双十一当天,零点的倒计时话音未落,52秒交易额冲破10亿。随后,又迅速在0时6分28秒,达到100亿!每一秒开猫大屏上的交易额都在刷新,这种时实刷新的大屏看着感觉超爽。天猫这个大屏后面的技术应该是使用流计算,阿里使用Java将Storm重写了,叫JStrom(https://...

2017-08-30 16:45:39

阅读数:4024

评论数:4

使用Maven自动打包配置文件生成开发环境,测试环境,生产环境

写在前面项目中往往有开发环境、测试环境、生产环境,这几个环境有些配置文件可能是不一样的,三个环境切换时以前基本是靠手动注释文件来打成不同的包。如果不同的配置文件过多,粗心打包后,就会导致配置文件出错,从而使项目部署出问题。例如Mysql配置文件在项目中有可能会使用如下情况,通过手动注释切换配置文件...

2017-07-24 11:15:05

阅读数:4160

评论数:0

使用Spark完成基于TF-IDF特征的新闻热点聚类

写在前面互联网各个地方时时刻刻都在发生着这样或者那样的事件,如果使用人工去观察根本无法全文们的知晓哪地方发生了什么热点事件,做为主流媒体更喜欢第一时间得知热点事件的发生,好及时的紧靠热点。舆情监控的目的就是及时的得知互联网上发生的热点事件,舆情监控也是媒体大数据的一项重要工作。本文简单实现一个简单...

2017-06-23 17:43:34

阅读数:4152

评论数:2

使用spark TF-IDF特征计算文章间相似度

写在前面计算字符串之前的相似度可以使用 Levenshtein distance(最小编辑距离)来实现,JAVA实现可以参考http://blog.csdn.net/ironrabbit/article/details/18736185,计算新闻标题间的相似度间可以使用这个算法,如果是计算整篇文章...

2017-06-23 12:03:11

阅读数:2197

评论数:1

使用Spark MLlib 完成新闻自动分类

写在前面最近学习了一点文本挖掘相关知道,刚刚接触到一点皮毛,刚好学了点Spark,所有就找个了小例子玩了一下,算法和实现都不太难,比较适合看公式一脸蒙逼,无聊想来点实际性Demo玩一下基本流程如图所示为新闻自己分类的基本流程,其中主要包含以下几点语料分类语料库用搜狗实验室http://www.so...

2017-06-19 17:54:08

阅读数:472

评论数:0

使用MapReduce计算框架统计CDN日志IP数、流量等数据

写在前面前面两篇文章中,我们使用Spark RDD及Spark Streaming 从CDN日志中计算出了独立IP数、每个视频独立IP数、每时CDN流量,这里我们将使用MapReduce计算框架,从同样的日志中完成相同的计算,前提是首页要搭建好Hadoop及HDFS运行环境独立IP计算计算思路 M...

2017-05-26 15:31:05

阅读数:1091

评论数:1

使用SparkSQL 分析日志中IP数、流量等数据

写在前面前面文章中,我们使用Spark RDD从非结构化的日志文件中分析出了访问独立IP数,单个视频访问独立IP数和每时CDN流量,这篇文章主要介绍使用Spark SQL从结构化的数据中完成这些数据的分析,如下图所有,先将日志文件结构化成csv文件,此文件可从源码cdn.csv中获取Pom文件中添...

2017-05-19 15:06:43

阅读数:3118

评论数:1

Spark 加强版WordCount ,统计日志中文件访问数量

原文地址:http://blog.csdn.net/whzhaochao/article/details/72416956写在前面学习Scala和Spark基本语法比较枯燥无味,搞搞简单的实际运用可以有效的加深你对基本知识点的记忆,前面我们完成了最基本的WordCount功能的http://blo...

2017-05-17 17:25:13

阅读数:5600

评论数:2

Idea 使用Maven创建Spark WordCount 案例

文章出处 http://blog.csdn.net/whzhaochao/article/details/72358215写在前面一直想学习一下大数相关知识,之前感觉门槛有点高,跑一个HelloWorld需要安装配置一大堆东西,最近有点时间,重新想学习一下大数据相关知识,这次我选择了Scala+S...

2017-05-17 10:57:48

阅读数:1754

评论数:0

微信小程序学习笔记(2)----HelloWorld分析

写在前面在学习HelloWorld之前首页需要破解微信开发工具,前面一篇有相关破解教程:http://blog.csdn.net/whzhaochao/article/details/52691550IDE结构上图是微信开发工具自动生成的一个HelloWorld,微信小程序的开发、调试都在这个工具...

2016-09-28 17:29:36

阅读数:3858

评论数:0

微信小程序学习笔记(1)----学习资料整理

微信小程序破解教程微信小程序只对少部分开放公测名额,大部分人都是没有权限,所以想要体验微信小程序开发还是需要破解一下的,破解方法比较简单,GitHub上早已有了破解教程https://github.com/xiangchuwang/Wechat_IDE_For_Crack 注意事项 在安装开发...

2016-09-28 16:36:08

阅读数:3883

评论数:0

grpc java helloworld 简单demo实现

写在前面最近google发布了grpc1.0,之前一直关注过grpc,数据交互使用了protocol buffer,相比之前使用的hession和json序列化方式性能应该提升不少,所有先搞一个grpc的hello world跑一下,项目使用maven搭建,并使用idea开发。 使用idea创建m...

2016-09-03 10:47:36

阅读数:18890

评论数:23

使用轻量级JAVA 爬虫Gecco工具抓取新闻DEMO

写在前面最近看到Gecoo爬虫工具,感觉比较简单好像,所有写个DEMO测试一下,抓取网站 http://zj.zjol.com.cn/home.html,主要抓取新闻的标题和发布时间做为抓取测试对象。Gecoo GitHub地址 https://github.com/xtuhcy/gecco ...

2016-04-08 14:15:16

阅读数:3942

评论数:1

分布式Web应用----zookeeper基本工作原理

写在前面前面一篇文章简单介绍了zookeeper的安装,当安装好了zookeeper后,我们可以通过zookeeper自带的客户端连接到zookeeper上,并对其进行操作,在对它进行操作前我们先要了解一些基本的知识。zookeeper工作原理 上图为zookeeper的节点结构,其中/为zoo...

2016-04-02 17:34:27

阅读数:1510

评论数:0

分布式Web应用----Linux环境下zookeeper集群环境的安装与配置

写在前面zookeeper是分布式应用中运用的比较广泛,了解zookeeper的原理对理解分布架构的应用具有很大的帮助,学会安装zookeeper则是学习zookeeper的前提,自己刚刚学习zookeeper,记录一下安装过程,增加自己印象,方便其它人学习。下载zookeeperzookeepe...

2016-03-27 20:06:57

阅读数:989

评论数:1

分布式Web应用----基于Socket+动态代理实现简单RPC 生产者消费者模型

写在前面前面一文主要简单介绍了JAVA动态代理基本原理,这也是实现RPC的基本知识,这里我们运用Socket简单实现一个远程过程调用,方便大家理解RPC的基本原理,希望对大家有所帮助。新建People接口类与Man实现类接口类public interface People { public...

2016-03-15 21:08:29

阅读数:1126

评论数:1

分布式Web应用----Java动态代理技术实现原理分析

原文链接:http://www.zhaochao.net/index.php/2016/03/11/20/写在前面 在企业开发中,最基本的开发架构可能就算是MVC框架,如 Struts+Spring+Hibernate 或者 SpringMVC+Spring+Mybatis ,这些框架也可能是J...

2016-03-11 22:00:54

阅读数:916

评论数:0

SEO优化之——html页面相关总结

写在前面在前面一篇文章中我简单介绍了怎么优化SEO,其中一点就是网站html结构的优化。网站结构的优化主要是让搜索引擎爬虫更好的理解你网站内容,从而让它喜欢上你的网站,这样它才会经常来爬你的网站,网站排名自然靠前了。这里我简单总结一些前端设计页面时应该注意的事项,总结可能不全,仅在我能力范围内,有...

2016-03-08 22:11:31

阅读数:3291

评论数:3

SEO优化之——常用工具总结

写在前面SEO优化就是让网站排名更靠前,那么怎么来衡量一个网站SEO的好坏呢?通常我们是借助一些SEO工具来查询一个网站SEO的相关信息,以下介绍一些本人知道的工具,有更好的工具请大家补充。百度 如上图所示为2015年中国搜索引擎市场份额,从图中可以看出百度在PC端和移动端都占据了大半壁江山,...

2016-03-07 20:14:23

阅读数:787

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭