Java代码
文章平均质量分 96
Z_Data
大学计算机专业老师一枚,高级开发工程师,专注大数据相关技术分享,实战项目开发。
展开
-
搭建Java开发环境
JDK 基本介绍JDK 的全称(Java Development Kit Java 开发工具包)JDK = JRE + java 的开发工具 [java, javac,javadoc,javap 等]JDK 是提供给 Java 开发人员使用的,其中包含了 java 的开发工具,也包括了 JRE。所以安装了 JDK,就不用在单独安装 JRE 了。JRE 基本介绍JRE(Java Runtime Environment Java 运行环境)JRE = JVM + Java 的核心类库[类]原创 2024-04-17 15:41:23 · 633 阅读 · 0 评论 -
MapReduce经典案例 -------- 统计最高温度
需求:求给定日期的最高温度待处理数据内容: 201701082.6 201701066 2017020810 2017030816.33 2017060833.0每一行的前8位是日期,从第8位往后是温度代码import java.io.IOException;import org.apache.hadoop.conf.Configuration;...原创 2018-11-09 08:51:55 · 2610 阅读 · 0 评论 -
MapReduce经典案例 ------- 学生成绩处理
目录算每个人的平均成绩求每个学科的平均成绩总平均分每个分数段的人数以及百分比将三门课程中任意一门不及格的学生过滤出来统计成材率每一门成绩都大于60分的人数/总人数待处理数据内容:学生成绩表 名字 语文 数学 英语 lh 92 68 70 zyt 94 88 75 ls 96 78 ...原创 2018-11-09 08:52:23 · 3624 阅读 · 1 评论 -
结合案例讲解MapReduce重要知识点 ------ 获取文件名
在map运行时获取被处理数据所在文件的文件名import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io....原创 2018-11-09 08:53:19 · 321 阅读 · 0 评论 -
结合案例讲解MapReduce重要知识点 ---------- 多文件输出
将MR处理后的结果数据输出到多个文件中import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Pa...原创 2018-11-09 08:53:08 · 255 阅读 · 0 评论 -
结合案例讲解MapReduce重要知识点 ---------------- partition分区
Mapreduce中会将map输出的kv对,按照相同key分组,然后分发给不同的reducetask默认的分发规则为:根据key的hashcode%reducetask数来分发,所以:如果要按照我们自己的需求进行分组,则需要改写数据分发(分组)组件Partitioner。 自定义一个CustomPartitioner继承抽象类:Partitioner 然后在job对象中,设置自定义...原创 2018-11-09 08:52:58 · 541 阅读 · 0 评论 -
结合案例讲解MapReduce重要知识点 ------------- 去除重复
去除文件中重复的行import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;...原创 2018-11-09 08:53:29 · 1108 阅读 · 0 评论 -
结合案例讲解MapReduce重要知识点 -------- 过滤敏感词汇
一篇文章 article.txt 内容如下 :We ask that you please do not send us emails privately asking for support. We are non-paid volunteers who help out with the project and we do not necessarily have the time o...原创 2018-11-09 08:53:40 · 1428 阅读 · 1 评论 -
结合案例讲解MapReduce重要知识点 ---------- Combiner
combiner是MR程序中Mapper和Reducer之外的一种组件 combiner组件的父类就是Reducer combiner和reducer的区别在于运行的位置: Combiner是在每一个maptask所在的节点运行 Reducer是接收全局所有Mapper的输出结果; combiner的意义就是对每一个maptask的输出进行...原创 2018-11-09 08:53:49 · 239 阅读 · 0 评论 -
结合案例讲解MapReduce重要知识点 ----------- 倒排序
需求:文章及其内容: index.html : hadoop is good hadoop hadoop is ok page.html : hadoop has hbase hbase is good hbase and hive content.html : hadoop spark hbase are good ok输出: and page.html:1 are content...原创 2018-11-09 08:53:58 · 728 阅读 · 0 评论 -
结合案例讲解MapReduce重要知识点 --------- 简单排序
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org....原创 2018-11-10 08:49:41 · 203 阅读 · 0 评论 -
2018年终巨献:阿里、腾讯最新Java面试题,你准备好进BAT了吗?
Java高级互联网架构 Java基础1.进程和线程的区别;2.Java的并发、多线程、线程模型;3.什么是线程池,如何使用?4.数据一致性如何保证;Synchronized关键字,类锁,方法锁,重入锁;5.Java中实现多态的机制是什么;6.如何将一个Java对象序列化到文件里;7.说说你对Java反射的理解;8.同步的方法;多进程开发以及多进程应用场景;9...原创 2018-11-30 11:53:21 · 314 阅读 · 0 评论 -
HDFS的java api详解 ------ 代码演示
目录 HDFS控制(Java)代码演示HDFS控制(Java)hadoop中关于文件操作类基本上全部是在org.apache.hadoop.fs包中,这些api能够支持的操作包含:打开文件,读写文件,删除文件等。FileSystem,该类是个抽象类,只能通过来类的get方法得到具体类。get方法存在几个重载版本,常用的是这个:static FileSystem get(...原创 2018-11-08 09:31:51 · 249 阅读 · 0 评论 -
结合案例讲解MapReduce重要知识点 --------- 自定义OutputFormat
需求 现有一些原始日志需要做增强解析处理,流程: (1)从原始日志文件中读取数据 (2)根据日志中的一个URL字段到外部知识库中获取信息增强到原始日志 (3)如果成功增强,则输出到增强结果目录;如果增强失败,则抽取原始数据中URL字段输出到待爬清单目录。 实现的需求是: 默认reduce执行后,输出数据的目的文件是固定的一个文件,那怎样实现根据数据的不同...原创 2018-11-11 17:33:30 · 258 阅读 · 0 评论 -
结合案例讲解MapReduce重要知识点 -------- 内存排序
TOP N数据:hello qianfeng hello qianfeng qianfeng is best qianfeng better hadoop is goodspark is nice取统计后的前三名: qianfeng 4 is 3 hello 2import java.io.IOException;import java.util.Array...原创 2018-11-10 08:49:58 · 245 阅读 · 0 评论 -
CSDN如何转载博客
对于喜欢逛CSDN的人来说,看别人的博客确实能够对自己有不小的提高,有时候看到特别好的博客想转载下载,但是不能一个字一个字的敲了,这时候我们就想快速转载别人的博客,把别人的博客移到自己的空间里面,当然有人会说我们可以收藏博客啊,就不需要转载,(⊙o⊙)… 也对。。实现 因为我自己当初想转载的时候却不...转载 2018-11-07 11:47:30 · 98 阅读 · 0 评论 -
结合案例讲解MapReduce重要知识点 ----------- 自定义MapReduce数据类型(1)重写Writable接口
重写Writable接口如下代码就是自定义mr数据类型,在wordcount类使用它。WordCountWritableimport java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.Writable;/** * 自定义wc...原创 2018-11-10 08:57:54 · 889 阅读 · 0 评论 -
结合案例讲解MapReduce重要知识点 -------- 使用自定义数据实现内存排序
自定义数据WCDataimport java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.WritableComparable;/** * 自定义数据类型 * @author lyd * */public class WCData...原创 2018-11-10 09:01:10 · 252 阅读 · 0 评论 -
结合案例讲解MapReduce重要知识点 ------- 使用自定义MapReduce数据类型实现二次排序
自定义数据类型SSData import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.WritableComparable;public class SSData implements WritableComparable<...原创 2018-11-10 09:39:47 · 307 阅读 · 0 评论 -
结合案例讲解MapReduce重要知识点 ---------- 内存排序找出每一组中的最大值
待处理数据 内容如下 二次排序:23 32123 29023 56778 65078 55478 75616 1816 1616 159 89 09 3处理后的数据 内容如下 输出数据:-----------9 8-----------16 18----------23 567-----------78 756MapReduce类Find...原创 2018-11-10 09:42:45 · 620 阅读 · 0 评论 -
结合案例讲解MapReduce重要知识点 ------- 排序找出每一组中的最大值(中间结果不在内存中)
功能:同内存排序求最大值,只是中间结果不在内存中,避免了数量过大造成内存溢出的问题。知识点 分组比较器的使用 job.setGroupingComparatorClass(GroupingComparator.class);自定义mr类SSDataimport java.io.DataInput;import java.io.DataOutput;import java.i...原创 2018-11-10 09:45:44 · 611 阅读 · 0 评论 -
结合案例讲解MapReduce重要知识点 ------- 两个表的简单join操作
待处理数据 内容如下 表1: child parent 张三 王阿姨 张三 张大叔 张张 王阿姨 张张 张大叔 王阿姨 王奶奶 王阿姨 王大爷 张大叔 张奶奶 张大叔 张大爷处理后的数据 内容如下 输出数据:grandchild grandparent *张三 张大爷 *张三 张奶奶 *张三 王奶奶 *张三 王大爷 *张张 张大爷 *张张 张奶奶 ...原创 2018-11-10 09:48:05 · 1195 阅读 · 0 评论 -
结合案例讲解MapReduce重要知识点 --------- 多表连接
第一张表的内容:login:uid sexid logindate1 1 2017-04-17 08:16:202 2 2017-04-15 06:18:203 1 2017-04-16 05:16:244 2 2017-04-14 03:18:205 1 2017-04-13 02:16:256 2 2017-04-13 01:15:207 1 20...原创 2018-11-10 10:10:33 · 842 阅读 · 0 评论 -
结合案例讲解MapReduce重要知识点 --------- MapReduce各组件之间数据传递
简单说就是在map中设置一个值,在reduce中能够获得这个值 import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache...原创 2018-11-11 17:32:56 · 541 阅读 · 0 评论 -
结合案例讲解MapReduce重要知识点 --------- 多个job之间有序执行
每一个MapReduce程序都封装成一个job,而多个job之间呢?后一个job输入的数据,就是前一个job的输出的数据。本节就是演示这种场景: 顺序执行 两个job执行是有先后顺序的 import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoo...原创 2018-11-11 17:33:21 · 642 阅读 · 0 评论 -
Zookeeper java API的使用
1 eclipse环境配置普通的java项目创建一个java项目依赖的jar包zookeeper-3.4.7\lib下的 jline-0.9.94.jar log4j-1.2.15.jar netty-3.2.2.Final.jar slf4j-api-1.6.1.jar slf4j-log4j12-1.6.1.jarzookeeper-3.4.7\zookeeper-3....原创 2018-11-06 19:56:20 · 150 阅读 · 0 评论