spark
文章平均质量分 98
小飞猪666
这个作者很懒,什么都没留下…
展开
-
CDH构建大数据平台-配置集群的Kerberos认证安全
当平台用户使用量少的时候我们可能不会在意集群安全功能的缺失,因为用户少,团队规模小,相对容易把控,开发人员直接也彼此了解。这时候只需要做好团队内部或是企业通过一些列行政管理手段就能管理好集群的安全问题。但是别忘了我们的平台定位可是作为一个单一的大数据来支持企业内部所有应用的。正所谓人上一百,形形色色。当平台用户达到一定数量之后其素质难免会参差不齐,大数据平台面对的也不再是一个小团队了。这时候靠团队...原创 2020-01-06 18:50:56 · 1268 阅读 · 0 评论 -
朴素贝叶斯分类算法
贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。这篇文章我尽可能用直白的话语总结一下我们学习会上讲到的朴素贝叶斯分类算法,希望有利于他人理解。1 分类问题综述 对于分类问题,其实谁都不会陌生,日常生活中我们每天都进行着分类过程。例如,当你看到一个人,你的脑子下意识判断他是学生还是社会上...转载 2019-02-21 17:57:54 · 212 阅读 · 0 评论 -
spark总结01
目录第一部分:SaprkCore部分Spark简介1、什么是RDD? RDD的5大特性。2、怎么理解partition,如何合理的设置partition的数量。3、RDD或者partition里面存储数据吗?怎么理解内存计算。4、Spark中的hello world (word count)5、Spark架构原理6、创建初始的RDD7、RDD算子操作8、RD...原创 2019-03-09 18:30:18 · 662 阅读 · 0 评论 -
转换算子 java和scala示例代码
Java代码:package com.netcloud.spark.sparkcore.transformation;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.ap...原创 2019-03-10 11:28:51 · 431 阅读 · 0 评论 -
行动算子 java和scala示例代码
Java代码package com.netcloud.spark.sparkcore.action;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spar...原创 2019-03-10 12:32:17 · 205 阅读 · 0 评论 -
持久化算子示例
package com.netcloud.spark.sparkcore.persist;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark....原创 2019-03-10 13:41:53 · 158 阅读 · 0 评论 -
共享变量java和scala代码的实现
java代码:package com.netcloud.spark.sparkcore.sharevariable;import org.apache.spark.Accumulator;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark...原创 2019-03-10 15:18:08 · 362 阅读 · 0 评论 -
spark二次排序示例代码
java的代码:自定义keypackage com.netcloud.spark.sparkcore.projectpractice;import scala.math.Ordered;import java.io.Serializable;import java.util.Objects;/** * 自定义的二次排序Key * 1)实现Ordered 、Seriali...原创 2019-03-14 23:00:58 · 186 阅读 · 0 评论 -
TaskScheduler提交TaskSets中的每个task到Executor执行源码分析
step1:DAGScheduler.scala submitTasks()方法 /** Called when stage's parents are available and we can now do its task. */ /** * 提交Stage 为stage创建一批task task数量和partition数量相同 * @param stage ...原创 2019-03-19 23:59:05 · 461 阅读 · 0 评论 -
基于排序机制的wordcount程序
Java代码:package com.netcloud.spark.sparkcore.projectpractice;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.a...原创 2019-03-13 17:58:50 · 161 阅读 · 0 评论 -
DAGScheduler 划分stage算法和提供task最佳位置算法剖析
1) sc.textFile分析/** * 1、首先hadoopFile()方法的调用会创建一个hadoopRDD,其中的元素其实是<k,value>pair * key是hdfs或者是文本文件的每一行的offset,value是文本行。然后对hadoopRDD调用map方法 * 会剔除key值,只保留value;然后会获得一个mapparti...原创 2019-03-18 23:05:10 · 385 阅读 · 0 评论 -
SparkContext初始化时如何创建TaskScheduler、发送注册Application请求、Master进行注册、以及Executor进程的启动源码分析
一、创建TaskScheduler、然后发送注册Application请求SparkContext.scala sparkContext初始化的时候创建TaskSchedule 这里主要分析 TaskScheduler对象如何创建, 如何向Master发送注册Application请求 接着Master收到请求后如何注册的整个过程。step1:sparkCon...原创 2019-03-19 11:44:02 · 373 阅读 · 0 评论 -
Executor源码分析
step1:CoarseGrainedExecutorBackend.scala/* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with * this wor...原创 2019-03-22 23:26:59 · 937 阅读 · 1 评论 -
Shuffle源码分析 Shuffle Write 和 Shuffle Read
step1:HashShuffleWriter.scala /** * 将ShuffleMapTask partition中的数据 写入磁盘 * @param records */ override def write(records: Iterator[Product2[K, V]]): Unit = { // 判断是否在map端进行聚合 // ...原创 2019-03-24 17:19:22 · 729 阅读 · 0 评论 -
SparkSQL代码案例
1、创建DataFrame的方式package com.netcloud.bigdata.sparksqlimport java.util.Propertiesimport org.apache.spark.sql.{SaveMode, SparkSession}/** * DataFrame的创建 * 从已经存在的RDD生成,从hive表、或者其他数据源(本地或者HDF...原创 2019-04-03 15:30:20 · 2138 阅读 · 1 评论 -
Spark总结02
下面的是对Spark总结01的复习以及详细的讲解一、作业提交的执行流程1)Spark程序写完之后,就要提交到spark集群上面去运行,这就是spark作业(一次代码的运行+一份数据的处理+一次结果的产出)。2) Spark作业是通过spark集群中的多个独立的进程(executor)并行执行的,每个进程处理一部分数据,从而做到分布式并行计算,才能做到对大数据并行处理和计算...原创 2019-04-14 22:52:40 · 246 阅读 · 0 评论 -
Spark:朴素贝叶斯实现二分类
package com.netcloud.bigdata.mlimport org.apache.spark.ml.classification.NaiveBayesimport org.apache.spark.ml.evaluation.MulticlassClassificationEvaluatorimport org.apache.spark.sql.SparkSessi...原创 2019-02-21 15:36:44 · 1030 阅读 · 0 评论 -
libsvm的数据格式及制作
1、libsvm数据格式libsvm使用的训练数据和检验数据文件格式如下: [label] [index1]:[value1] [index2]:[value2] … [label] [index1]:[value1] [index2]:[value2] …label 目标值,就是说class(属于哪一类),就是你要分类的种类,通常是一些整数。index 是有顺序的索引,通...转载 2019-02-21 15:24:04 · 6066 阅读 · 0 评论 -
大数据10_02_SparkStreaming输入源、foreachRDD、transform、updateStateByKey、reduceByKeyAndWindow
基本数据源1.文件流 从文件中读取数据lines= ssc.textFileStream("file:///usr/local/spark/mycode/streaming/logfile")2.套接字流Spark Streaming可以通过Socket端口监听并接收数据,然后进行相应处理。JavaReceiverInputDStream lines = jsc原创 2018-01-18 22:55:21 · 2570 阅读 · 0 评论 -
大数据10_01_SparkStream
1. SparkStreaming简介SparkStreaming是流式处理框架,7*24小时运行。是Spark API的扩展,支持可扩展、高吞吐量、容错的实时数据流处理;实时数据的来源可以是:Kafka, Flume, Twitter, ZeroMQ或者TCP sockets,并且可以使用高级功能的复杂算子来处理流数据。例如:map,reduce,join,window 。最终,处理后的数据可以...原创 2018-01-18 22:54:47 · 281 阅读 · 0 评论 -
大数据Spark01简介
Spark简介Apache Spark 是一个大数据处理快速通用引擎,提供了分布式的内存抽象(这就是快速计算的原因之一)。Spark最初由美国加州伯克利大学(UCBerkeley)的AMP(Algorithms, Machines and People)实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。Spark在诞生之初属于研原创 2017-10-24 23:14:44 · 1856 阅读 · 1 评论 -
大数据11_Kafka知识以及kafka与sparkstreaming结合
1. kafka是什么?使用场景? kafka是一个高吞吐的分布式消息队列系统。特点是生产者消费者模式,先进先出(FIFO)保证顺序,自己不丢数据,默认每隔7天清理数据。消息列队常见场景:系统之间解耦合、峰值压力缓冲、异步通信。 2. kafka生产消息、存储消息、消费消息1)Kafka架构是由producer(消息生产者)、consumer(消息消费者)、borker(k...原创 2018-11-03 20:57:26 · 359 阅读 · 0 评论 -
安装hue可视化以及与hdfs、hive、hbase和mysql的集成
1. Hue概述及版本下载1)概述 Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等。2)...原创 2018-11-13 20:59:29 · 929 阅读 · 0 评论 -
Hadoop集群的搭建
NameNode高可用方案要点这种情形:当一个NameNode当掉了,整个集群就无法运行了。Hadoop2.0后将NameNode进行了一个抽象,它把这个NameNode抽象为了一个NameService一个NameService下面有两个NameNode,这时候就得需要有个东西来协调,否则两个NameNode都是active的状态或者为standby状态(等待),这时候zo...原创 2017-06-20 21:43:39 · 455 阅读 · 0 评论 -
spark2.2.0 源码编译安装
1. Spark概述 Spark 是一个用来实现快速而通用的集群计算的平台。 在速度方面,Spark 扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。 在处理大规模数据集时,速度是非常重要的。速度快就意味着我们可以进行交互式的数据操作,否则我们每次操作就需要等待数分钟甚至数小时。 Spark 的一个主要特点就是能够在内...转载 2018-11-17 09:50:57 · 319 阅读 · 0 评论 -
spark2.2.0-hadoop2.6.0预编译集群安装
1、下载解压将下载好的spark-2.2.0-bin-hadoop2.6.tgz包移动到netcloud03 netcloud04 netcloud05 各节点的/opt目录下并解压2、Spark基于Standalone运行模式进行配置1)测试 cd /opt/spark-2.2.0-bin-hadoop2.6 ./bin/spark-submit --cl...原创 2018-11-17 12:11:29 · 670 阅读 · 0 评论 -
新闻网日志实时分析可视化系统项目
本次项目是基于企业大数据经典案例项目(大数据日志分析),全方位、全流程讲解 大数据项目的业务分析、技术选型、架构设计、集群规划、安装部署、整合继承与开发和web可视化交互设计。项目代码托管于github,大家可以自行下载。一、业务需求分析捕获用户浏览日志信息 实时分析前20名流量最高的新闻话题 实时统计当前线上已曝光的新闻话题 统计哪个时段用户浏览量最高 生成报表(给销售...转载 2018-11-04 22:29:03 · 4748 阅读 · 2 评论 -
Spark SQL与hive hbase mysql集成
虚拟机环境:centos7一、Spark SQL 与Hive集成(spark-shell)1.需要配置的项目 1)将hive的配置文件hive-site.xml拷贝到spark conf目录,同时添加metastore的url配置。 执行操作: vi hive-site.xml,添加如下内容:<property> <name>...原创 2018-11-18 10:38:10 · 824 阅读 · 0 评论 -
Hive文件格式(表stored as 的五种类型)
hive文件存储格式包括以下几类:1、TEXTFILE2、SEQUENCEFILE3、RCFILE4、ORCFILE(0.11以后出现)5、PARQUET1、其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理; SEQUENCEFILE,RCFILE,ORCFILE,PARQUET格式的表不能直接从本地...原创 2018-12-20 17:17:33 · 28358 阅读 · 3 评论 -
大数据集群(HA)安装 CDH版本
1.下载组件(注意版本号要与其他的组件CDH版本一致) 有的需要翻墙下载jdk1.8 https://pan.baidu.com/s/1PI-m73GKU2DSVRnJA0rzwg hadoop-2.6.0-cdh5.8.3....原创 2019-08-30 15:55:32 · 809 阅读 · 0 评论 -
大数据Spark05_spark-submit提交参数
Spark-Submit提交参数Options: --master MASTER_URL, 可以是spark://host:port, mesos://host:port, yarn, yarn-cluster,yarn-client, local --deploy-modeDEPLOY_MODE, Driver程序运行的地方,client或者cluster,默认是clien原创 2018-01-18 22:52:46 · 1193 阅读 · 0 评论