![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
Young_____Hu
这个作者很懒,什么都没留下…
展开
-
SparkStreaming的两种wordCount
object HelloWord01 { def main(args: Array[String]): Unit = { //基本配置 val conf = new SparkConf().setMaster("local[*]").setAppName("HelloWord01") val ssc = new StreamingContext(conf, Secon...原创 2020-03-28 16:14:24 · 209 阅读 · 0 评论 -
Spark自定义累加器
object leijiaqi { def main(args: Array[String]): Unit = { //基本配置 val conf = new SparkConf().setAppName("myRddLearn").setMaster("local[*]") val spark = SparkSession.builder().config(con...原创 2020-03-26 19:54:13 · 363 阅读 · 0 评论 -
RDD-KV
这里简单描述一下几个rdd,key-values的使用groupByKeyreduceByKeyaggregateByKeyfoldByKeycombineByKeymapValuesjoingroupByKey返回((key,value数组),(key,value数组))//定义两个kv类型的rddval rdd1: RDD[(Int, String)] = spark...原创 2020-03-23 15:07:29 · 306 阅读 · 0 评论 -
Spark得checkPoint和Cache
Cache举例子:rdd2依赖rdd1rdd3依赖rdd2rdd3.cache()//会把rdd3存入内存中,以后可以非常快得直接从内存中取问题1:如果rdd3.cache()存入得数据是50G而我们实际内存可能只有32G 他会只存一部分,下次你再用rdd3得时候 50G其中32G会直接从内存中取,剩下得18G从新计算得出,依旧会比50G计算快得多。这里只是举个例子。阅读源码...原创 2019-06-05 21:52:24 · 214 阅读 · 0 评论 -
windows安装hadoop2.8.4
由于winutils不好下载,很多csdn都是要积分才能下载,我很不喜欢这点。所以我决定把我的放到网盘大家都可以下载这两个需要下载的都在这个公开的文件夹下面链接:https://pan.baidu.com/s/10sPedrHvb0dMWsbyjk1Qqg提取码:xslh复制这段内容后打开百度网盘手机App,操作更方便哦1.下载hadoop2.8.42.配置环境变量3.下载winut...原创 2019-05-05 23:04:04 · 1185 阅读 · 0 评论 -
Rdd算子之reduce
/**分三个分区:* 分区1:1、2* 分区2:3、4* 分区3:5、6、7*每个分区内部进行相加*(1+2)+(3+4)+((5+6)+7)**/private static void reduce() { SparkConf conf = new SparkConf().setAppName("hzy").setMaster("local"); ...原创 2019-05-05 22:45:56 · 990 阅读 · 0 评论 -
Rdd算子之aggregate
aggregate是聚合的意思private static void arrgue1() { SparkConf conf = new SparkConf().setAppName("hzy").setMaster("local"); JavaSparkContext sparkContext = new JavaSparkContext(conf); ...原创 2019-05-05 22:41:21 · 224 阅读 · 0 评论 -
Spark的wordcount
private static void wordCount() { //设置这次任务的名字和设置本地跑spark程序 SparkConf conf = new SparkConf().setAppName("hzy").setMaster("local"); JavaSparkContext sparkContext = new JavaSparkC...原创 2019-05-05 22:36:35 · 87 阅读 · 0 评论 -
flume数据采集到kafka
agent.sources = s1agent.channels = c1agent.sinks = k1agent.sources.s1.type=execagent.sources.s1.command=tail -F /usr/local/flume/testflume2/hzytest.logagent.sources.s1.channels=c1agent.channels...原创 2019-02-27 10:05:01 · 1859 阅读 · 0 评论 -
flume文件采集
flume的两种采集模式1.以文件为答案,只要新增了一个文件就把该文件采集到hdfs上去配置文件如下#定义三大组件的名称agent1.sources = source1agent1.sinks = sink1agent1.channels = channel1# 配置source组件agent1.sources.source1.type = spooldir#从这个文件夹下采集...原创 2019-01-15 15:55:43 · 1857 阅读 · 0 评论 -
MapReducer-wordCount
public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{ @Override protected void map(LongWritable key, Text value, Context context) throws IOException, Interrup...原创 2018-12-19 23:12:09 · 151 阅读 · 0 评论 -
Hadoop-代码的几种跑法
1.Hadoop可以安装在linux上,一般以集群安装。也可安装在windows上,开发人员可以在本地安装一个hadoop这样在开发阶段可以直接跑本地模式,方便debug2.IDEA上或者eclipse上可以跑mapreducer代码。有三种方式直接在本地跑。直接在集群上跑在本地跑集群这里简单说两种本地跑和集群上跑集群上跑需要把项目打成jar包集群启动namenode、datan...原创 2018-12-19 22:57:18 · 474 阅读 · 0 评论