大数据
布衣清水
这个作者很懒,什么都没留下…
展开
-
使用IDEA+Maven开发wordCount案例【MapReduce编程实现】
这是学习MR编程的一个典型模型,这里分享一下。 wordCount需求是统计文件中每个单词出现的次数。 处理过程中主要是将作业拆分成Map阶段(Mapper tasks)和Reduce阶段(Reducer tasks),数据转换过程如下:(input) <k1, v1> -> map -> <k2, v2> -> combine -> &...原创 2018-05-02 19:35:26 · 2139 阅读 · 0 评论 -
linux中用spark进行单词数统计--wordCount例子操作详解【scala版】
这是命令行的简单操作案例,借用spark里面的API:flatMap、reduceByKey来实现,步骤如下: 1)启动spark shell:./spark-shell --master local[2]注:spark shell 是spark自带的一个快速开发工具,在spark目录下bin目录里面2)读入需要处理的单词文件val file = sc.textFile("fil...原创 2018-05-13 16:19:11 · 2222 阅读 · 0 评论 -
Java API操作HDFS文件,利用Junit单元测试
操作HDFS文件,约有以下两种方法 (1)shell,这个相信大家基本都会; (2)Java API 的操作 这次主要记录下Java API操作HDFS文件的相关测试环境:IDEA+JDK10.0.1,虚拟机centos 版本:hadoop2.6.0-cdh5.7.0, junit 4.11,maven3.0事先要在pom.xml中添加相关依赖,并指定一个仓库测试代码如下:...原创 2018-04-29 15:30:57 · 898 阅读 · 0 评论 -
Flume完整实例一:从指定网络端口采集数据输出到控制台
LZ最近在学习Flume(分布式日志收集框架),从简单的例子入手,以供参考 需求:从指定网络端口采集数据输出到控制台 首先要安装Flume,其源码是Java,所以先安装JDK(我装的是1.8),Flume解压配置好环境后,检测flume是否安装成功:在bin目录下,比如:/home/apache-flume-1.6.0-cdh5.7.0-bin/bin 输入:flume-ng version...原创 2018-06-26 23:04:28 · 3535 阅读 · 0 评论 -
kafka分别在单节点单broker和单节点多(3)broker中的部署和生产、消费信息测试
LZ是在自己的笔记本电脑的虚拟机上部署的,只有一台机器,所以尝试了这两种方式下生产和消费信息的使用 学一门新技术肯定要看官方文档,上面有比较详细的说明,但是有的地方有点错误,还是在这里记录下,以供参考!官方文档链接 1、首先安装kafka 版本选用0.9.0.0,选择与scala2.11相配的版本 1)拷贝地址,然后wget下载,再解压,配置系统环境变量【vi ~/.bash_profil...原创 2018-07-09 23:01:29 · 2062 阅读 · 0 评论 -
Kafka容错性测试【高可用性】
部署好Kafka【单节点3个broker】,我们可以对其容错性进行测试: 首先查看topic及详细信息: 1)用jps -m显示 2)现在3是主broker,可以用kill -9 3147 结束2,只剩3和1 3)再看下详细信息: Isr中已经没有2了 4) kill -9 3208结束3,发现仍然能测试生产消费信息【在生产终端输入,消费终端有显示】 5) 再看下...原创 2018-08-04 21:44:34 · 2323 阅读 · 0 评论