自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(87)
  • 资源 (1)
  • 收藏
  • 关注

原创 Spark中的Driver和Executor的个人理解

Driver:Driver是Spark中Application也即代码的发布程序,可以理解为我们编写spark代码的主程序,因此只有一个,负责对spark中SparkContext对象进行创建,其中SparkContext对象负责创建Spark中的RDD(Spark中的基本数据结构,是一种抽象的逻辑概念)Driver的另外一个职责是将任务分配给各个Executor进行执行。任务分配的原则主要是就近原则,即数据在哪个Executor所在的机器上,则任务分发给哪个Exectuor。简单来说就是:Drive.

2020-05-25 18:04:05 4227

原创 数仓项目拉链表的小练习

拉链表试题链接:https://pan.baidu.com/s/1MURoAfcqJQ7q86JoFTg8fQ提取码:zvni需求:在mysql数据库中有一个人员信息表(userinfo)数据字段如下:在Mysql中的建表语句为:-- 创建数据库create database if not exists exam;-- 创建人员表create table if not exists `exam`.`userinfo`( user_id varchar(50), -- 人员编号

2020-05-22 10:11:20 3352

原创 hive插入报Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hive

insert overwrite table `itcast_dw`.`dim_goods`selectgoodsId,goodsSn,productNo,goodsName,goodsImg,shopId,goodsType,marketPrice,shopPrice,warnStock,goodsStock,goodsUnit,goodsTips,isSale,isBest,isHot,isNew,isRecom,goodsCatIdPath,goodsCatI

2020-05-10 10:32:02 7433 2

原创 spark练习题来了

以下是RNG S8 8强赛失败后,官微发表道歉微博下一级评论数据说明:rng_comment.txt文件中的数据字段 字段含义index 数据idchild_comment 回复数量comment_time 评论时间content 评论内容da_v 微博个人认证like_status 赞pic 图片评论urluser_id 微博用户iduser_name 微博用户名vip...

2020-05-01 11:23:31 3584

原创 kettle连接hive报错 org.pentaho.di.core.exception.KettleDatabaseException:Error occurred while trying....

错误连接数据库 [hive1] : org.pentaho.di.core.exception.KettleDatabaseException:Error occurred while trying to connect to the databaseError connecting to database: (using class org.apache.hive.jdbc.HiveDriv...

2020-04-30 08:09:53 9836 2

原创 Hive中时间日期函数的使用

to_date:日期时间转日期函数select to_date(‘2015-04-02 13:34:12’);输出:2015-04-02from_unixtime:转化unix时间戳到当前时区的时间格式select from_unixtime(1323308943,’yyyyMMdd’);输出:20111208unix_timestamp:获取当前unix时间戳select unix...

2020-04-28 15:09:01 5742

原创 spark读取mysql数据库用sparksql进行查询

package day0413import java.util.Propertiesimport org.apache.spark.sql.{DataFrame, SparkSession}object SparkSqlReadMysql { def main(args: Array[String]): Unit = { val sqlcontext: SparkSessi...

2020-04-23 11:44:57 3870

原创 Spark Streaming简易介绍

介绍Spark Streaming是一个基于Spark Core之上的实时计算框架,可以从很多数据源消费数据并对数据进行实时的处理,具有高吞吐量和容错能力强等特点。特点易用:可以像编写离线批处理一样去编写流式程序,支持java/scala/python语言。容错:SparkStreaming在没有额外代码和配置的情况下可以恢复丢失的工作。易整合到Spark体系:流式处理与批处理和交互式...

2020-04-22 19:57:17 2879

原创 SparkStreaming操作实战代码(整合kafka ,窗口函数)

Spark Streaming实战(wordcount)package day0414import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.stream...

2020-04-21 11:21:22 2598

原创 SparkSql的多数据源交互(json、parquet、csv、MySQL)写入不同数据源 ,读取不同数据源

将数据写入不同数据源import java.util.Propertiesimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}object WriterDataSourceDe...

2020-04-20 08:17:21 2435

原创 记录一个写sparksql把csv文件转成df写入mysql报错 java.sql.BatchUpdateException: Incorrect string value: : '\xE9\xBB

这是写入代码原因:创建表的时候没有指定utf-8解决办法:创建数据表加上格式就行了

2020-04-17 11:54:42 2699 2

原创 Structured Streaming 读取Socket数据 常见报错

第一种 : 添加hadoop.dll 和 winutils 重启idea第二种:idea用管理员权限打开 重新运行

2020-04-16 21:14:35 2427

原创 使用IDEA开发 Spark SQL自定义函数(UDF)

类似于hive当中的自定义函数, spark同样可以使用自定义函数来实现新的功能。spark中的自定义函数有如下3类1.UDF(User-Defined-Function)输入一行,输出一行2.UDAF(User-Defined Aggregation Funcation)输入多行,输出一行3.UDTF(User-Defined Table-Generating Functions)...

2020-04-15 10:26:14 2717

原创 写SparkSql报错Use the CROSS JOIN syntax to allow cartesian products between these relations.;

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200414200132929.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NDk1NTM2Mw==,size_16,color_...

2020-04-14 20:05:43 3082

原创 使用IDEA开发Spark SQL

指定列名添加Schemapackage SparkSqlimport org.apache.sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSessionimport java.util.Propertiesimport org.apache.avro.ipc.specific.Person...

2020-04-13 20:34:06 2595

原创 Spark SQL简单介绍

Spark SQL是Spark用来处理结构化数据的一个模块。Spark SQL还提供了多种使用方式,包括DataFrames API和Datasets API。但无论是哪种API或者是编程语言,它们都是基于同样的执行引擎,因此你可以在不同的API之间随意切换,它们各有各的特点。●Spark SQL 的特点1.易整合可以使用java、scala、python、R等语言的API操作。2.统一...

2020-04-13 20:24:06 2609

原创 Spark Core的RDD详解(2)完结

RDD累加器和广播变量在默认情况下,当Spark在集群的多个不同节点的多个任务上并行运行一个函数时,它会把函数中涉及到的每个变量,在每个任务上都生成一个副本。但是,有时候需要在多个任务之间共享变量,或者在任务(Task)和任务控制节点(Driver Program)之间共享变量。为了满足这种需求,Spark提供了两种类型的变量:1.累加器accumulators:累加器支持在所有不同节点之间...

2020-04-12 11:50:34 2235

原创 Spark 可以通过Hadoop输入格式访问HBase(创建hbase表和读取hbase数据)

package SparkSqlimport org.apache.hadoop.hbase.client.{HBaseAdmin, Put, Result}import org.apache.hadoop.hbase.io.ImmutableBytesWritableimport org.apache.hadoop.hbase.{HBaseConfiguration, HColumnDe...

2020-04-12 11:50:13 2239

原创 Spark支持通过Java JDBC访问关系型数据库

读取本地数据入MySQL表代码package SparkSqlimport java.sql.DriverManagerimport org.apache.spark.{SparkConf, SparkContext}object SparkMsql { def main(args: Array[String]): Unit = { //实例化sparkconf ...

2020-04-11 15:47:19 2652

原创 记录一个zookeeper没起来的小原因

Starting zookeeper … already running as process 1980.百度查了查 可能因为你上次 断电异常关闭 导致的删掉这个 重启rm -rf zookeeper_server.pid

2020-04-09 12:49:53 2497 1

原创 Spark练习题(1)

test.txt数据如下(都是按空格分隔的):12 宋江 25 男 chinese 5012 宋江 25 男 math 6012 宋江 25 男 english 7012 吴用 20 男 chinese 5012 吴用 20 男 math 5012 吴用 20 男 english 5012 杨春 19 女 chinese 7012 杨春 19 女 math 7012 杨春 19 ...

2020-04-08 10:13:01 2703

原创 Spark Core的RDD详解(1)

(1)什么是RDD?RDD 叫做弹性分布式数据集,是Spark中最基本的数据(计算抽象),代码中是一个抽象类,代表一个不可变,可分区,里面的元素可并行计算的集合(2)RDD的主要属性1、数据集的基本组成单位,一组分片或多分区每个分片(每个分区)都会被一个计算任务处理,分片数决定并行度(与kafka相同)用户可以在创建RDD时指定RDD的分片个数,如果没有指定,那么就会采用默认值(默认值是...

2020-04-08 09:53:36 2323

原创 yran原理

在hadoop1.x中还没有yarn ,到了hadoop2.x才出现yarn1. 为什么会出现yarnhadoop1.x的时候,存在最大问题就是资源管理,随着技术的发展,人们不再满足hadoop集群只使用mapreduce一个计算框架(例如:spark mapreduce 等框架)人们更希望有一套合理的管理机制,来控制整个集群的资源管理...

2020-04-02 20:16:50 2552

原创 scala中的几种访问权限解释(只有图)

2020-03-29 17:08:55 2466 1

原创 scala中迭代器使用各种方法会报错Exception in thread "main" java.lang.UnsupportedOperationException: empty.max

原因:可以使用Iterator的 min 和 max 方法从迭代器中查找最大与最小元素。但好像同一个迭代器只能使用一次,以为Iterator的max和min方法是TraversableOnce(可遍历一次,遍历过一次之后迭代器就变为空的了)类型的,所以当第二次调用同样的方法,或第一次调用max方法第二次调用min方法时,第二次调用的方法会出现下面的错误:...

2020-03-29 15:04:28 2937

原创 scala中定义变量几种方式

scala中定义变量val定义的是不可重新赋值的变量var定义的是可重新赋值的变量在scala中,可以使用val或者var来定义变量,语法格式如下:val/var 变量标识:变量类型 = 初始值定义变量的注意事项:A : scala中定义变量类型写在变量名后面B : scala的语句最后不需要添加分好号- 在解析器中定义一个变量 值为tom val name:string="to...

2020-02-10 15:07:41 5579

原创 windows上Scala安装部署

开发环境安装学习如何编写scala代码之前,需要先安装scala编译器以及开发工具Java程序编译执行流程Scala程序编译执行流程scala程序运行需要依赖于Java类库,必须要有Java运行环境,scala才能正确执行根据上述流程图,要编译运行scala程序,需要jdk(jvm)scala编译器(scala SDK)接下来,需要依次安装以下内容:安装JDK安装sc...

2020-02-05 00:40:37 2341

原创 hive语句

创建video_ori表 数据以 : 字段之间以进行分割create table video_ori( videoId string, uploader string, age string, category string, length string, views string, rate string, ratings string, comments string, relatedId...

2020-01-06 15:02:17 2326

原创 HBase常用API操作

package HBaseAPI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.filter.*;import org.apache.ha...

2020-01-06 14:53:36 2400 1

原创 HBase的RegionServer服务启动了马上又消失的

先看日志信息logs把时间三个节点的时间进行同步重启就行了

2019-12-12 19:50:13 2427

原创 ZooKeeper选举机制(面试重点)

zookeeper默认的算法是FastLeaderElection,采用投票数大于半数则胜出的逻辑。全新集群选举假设目前有5台服务器,每台服务器均没有数据,它们的编号分别是1,2,3,4,5,按编号依次启动,它们的选择举过程如下: 服务器1启动,给自己投票,然后发投票信息,由于其它机器还没有启动所以它收不到反馈信息,服务器1的状态一直属于Looking。 服务器2启动,给自己投票,同时...

2019-12-10 20:13:45 2638 13

原创 Apache Sqoop 安装和导入

1. sqoop介绍Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。来自于Apache软件基金会提供。Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。Hadoop生态系统包括:HDFS、Hive、Hbase等RDBMS体系包括:My...

2019-12-04 08:38:49 2321

原创 shuffle阶段数据的压缩机制

在shuffle阶段,可以看到数据通过大量的拷贝,从map阶段输出的数据,都要通过网络拷贝,发送到reduce阶段,这一过程中,涉及到大量的网络IO,如果数据能够进行压缩,那么数据的发送量就会少得多,那么如何配置hadoop的文件压缩呢,以及hadoop当中的文件压缩支持哪些压缩算法呢??接下来一 一细看MapReduce的执行流程为什么要配置压缩:MapReduceinputmappe...

2019-11-20 08:40:21 2606

原创 MapReduce一次读取多个文件(获取数据所在文件的名称)

关键代码:在Map代码中添加一下代码,可以获取每条数据所属的文件名 查看Hadoop支持的压缩格式//获取所属的文件名称FileSplit inputSplit = (FileSplit)context.getInputSplit();String Filename = inputSplit.getPath().getName();//FIlename是文件名称...

2019-11-19 21:13:07 3541

原创 如何能让Map端和Reduce端达到最优?

Map端的最高效率是尽量减少环形缓冲区 的次数(减少磁盘IO 的使用次数) 如何能够减少环形缓冲区flush的次数:1、 加大环形缓冲区的内存2、 增大缓冲区阈值的大小 (考虑剩余的空间是不是够系统使用)3、 对输出的进行压缩(压缩-解压的过程会消耗CPU)Reduce端的最高效率是1尽量减少环形缓冲区flush的次数2、尽量将所有的数据在内存中计算在网络带宽、磁盘IO是瓶颈的前...

2019-11-19 21:04:11 2394

原创 MapReduce的执行流程

map阶段处理的数据如何传递给reduce阶段,是MapReduce框架中最关键的一个流程,这个流程就叫shuffle。 shuffle: 洗牌、发牌——(核心机制:数据分区,排序,分组,ComBine,合并等过程)shuffle是Mapreduce的核心,它分布在Mapreduce的map阶段和reduce阶段。一般把从Map产生输出开始到Reduce取得数据作为输入之前的过程称作shuffl...

2019-11-19 21:00:43 3003

原创 MapReduce并行计算框架求WordCount单词总和

**需求:计算data.txt文档中每个单词出现的次数**zhangsan,lisi,wangwuzhaoliu,qianqi,niubazhangsan,wangwuzhaoliu,niuba第一步:创建maven项目第二步:导pom.xml依赖的包<repositories> <repository> <id...

2019-11-15 22:16:56 2512

原创 java中1+1d/5和1+1/5什么区别

主要区别就是数据类型不同.1+1d/5的结果是1.2, 是double类型. 因为1d就是double类型,1d/5结果自动提升成double类型,1+1d/5结果也自动提升成double类型. .1+1/5的结果1, 是int类型, 因为1/5是整除(会丢失小数部分的精度…) . 两边操作数都是int类型. 最后在加上1还是int类型.所以结果就是int类型.java参考代码如下publ...

2019-11-14 11:07:22 2949

原创 HDFS中javaAPI创建文件写入内容报错:INFO hdfs.DFSClient: Exception in createBlockOutputStream

19/11/11 20:33:26 INFO hdfs.DFSClient: Exception in createBlockOutputStreamjava.net.ConnectException: Connection refused: no further information at sun.nio.ch.SocketChannelImpl.checkConnect(Na...

2019-11-11 20:47:08 3608

原创 Hadoop中新增节点

随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。准备工作:1.配置JDK2.配置SSH免密钥3.关闭防火墙4.关闭selinux5.修改主机名6.修改hosts注释:新增节点叫node04,namenode是node01准备新节点第一步:复制一台新的虚拟机出来将我们纯净的虚拟机复制一台出来,作为我们...

2019-11-11 08:59:38 2702 1

Git-2.20.1-64-bit.rar

Git 是一个开源的分布式版本控制系统,用于敏捷高效地处理任何或小或大的项目。 Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。

2020-06-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除