自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

登峰造极胡子球手

原创 Spark中的Driver和Executor的个人理解

Driver：Driver是Spark中Application也即代码的发布程序，可以理解为我们编写spark代码的主程序，因此只有一个，负责对spark中SparkContext对象进行创建，其中SparkContext对象负责创建Spark中的RDD（Spark中的基本数据结构，是一种抽象的逻辑概念）Driver的另外一个职责是将任务分配给各个Executor进行执行。任务分配的原则主要是就近原则，即数据在哪个Executor所在的机器上，则任务分发给哪个Exectuor。简单来说就是：Drive.

2020-05-25 18:04:05 4227

原创数仓项目拉链表的小练习

拉链表试题链接：https://pan.baidu.com/s/1MURoAfcqJQ7q86JoFTg8fQ提取码：zvni需求：在mysql数据库中有一个人员信息表（userinfo）数据字段如下：在Mysql中的建表语句为：-- 创建数据库create database if not exists exam;-- 创建人员表create table if not exists `exam`.`userinfo`( user_id varchar(50), -- 人员编号

2020-05-22 10:11:20 3352

原创 hive插入报Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hive

insert overwrite table `itcast_dw`.`dim_goods`selectgoodsId,goodsSn,productNo,goodsName,goodsImg,shopId,goodsType,marketPrice,shopPrice,warnStock,goodsStock,goodsUnit,goodsTips,isSale,isBest,isHot,isNew,isRecom,goodsCatIdPath,goodsCatI

2020-05-10 10:32:02 7433 2

原创 spark练习题来了

以下是RNG S8 8强赛失败后，官微发表道歉微博下一级评论数据说明：rng_comment.txt文件中的数据字段字段含义index 数据idchild_comment 回复数量comment_time 评论时间content 评论内容da_v 微博个人认证like_status 赞pic 图片评论urluser_id 微博用户iduser_name 微博用户名vip...

2020-05-01 11:23:31 3584

原创 kettle连接hive报错 org.pentaho.di.core.exception.KettleDatabaseException:Error occurred while trying....

错误连接数据库 [hive1] : org.pentaho.di.core.exception.KettleDatabaseException:Error occurred while trying to connect to the databaseError connecting to database: (using class org.apache.hive.jdbc.HiveDriv...

2020-04-30 08:09:53 9836 2

原创 Hive中时间日期函数的使用

to_date：日期时间转日期函数select to_date(‘2015-04-02 13:34:12’);输出：2015-04-02from_unixtime：转化unix时间戳到当前时区的时间格式select from_unixtime(1323308943,’yyyyMMdd’);输出：20111208unix_timestamp：获取当前unix时间戳select unix...

2020-04-28 15:09:01 5742

原创 spark读取mysql数据库用sparksql进行查询

package day0413import java.util.Propertiesimport org.apache.spark.sql.{DataFrame, SparkSession}object SparkSqlReadMysql { def main(args: Array[String]): Unit = { val sqlcontext: SparkSessi...

2020-04-23 11:44:57 3870

原创 Spark Streaming简易介绍

介绍Spark Streaming是一个基于Spark Core之上的实时计算框架，可以从很多数据源消费数据并对数据进行实时的处理，具有高吞吐量和容错能力强等特点。特点易用：可以像编写离线批处理一样去编写流式程序，支持java/scala/python语言。容错：SparkStreaming在没有额外代码和配置的情况下可以恢复丢失的工作。易整合到Spark体系：流式处理与批处理和交互式...

2020-04-22 19:57:17 2879

原创 SparkStreaming操作实战代码（整合kafka ，窗口函数）

Spark Streaming实战(wordcount)package day0414import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.stream...

2020-04-21 11:21:22 2598

原创 SparkSql的多数据源交互(json、parquet、csv、MySQL)写入不同数据源，读取不同数据源

将数据写入不同数据源import java.util.Propertiesimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}object WriterDataSourceDe...

2020-04-20 08:17:21 2435

原创记录一个写sparksql把csv文件转成df写入mysql报错 java.sql.BatchUpdateException: Incorrect string value: : '\xE9\xBB

这是写入代码原因：创建表的时候没有指定utf-8解决办法：创建数据表加上格式就行了

2020-04-17 11:54:42 2699 2

原创 Structured Streaming 读取Socket数据常见报错

第一种：添加hadoop.dll 和 winutils 重启idea第二种：idea用管理员权限打开重新运行

2020-04-16 21:14:35 2427

原创使用IDEA开发 Spark SQL自定义函数(UDF)

类似于hive当中的自定义函数， spark同样可以使用自定义函数来实现新的功能。spark中的自定义函数有如下3类1.UDF(User-Defined-Function)输入一行，输出一行2.UDAF(User-Defined Aggregation Funcation)输入多行，输出一行3.UDTF(User-Defined Table-Generating Functions)...

2020-04-15 10:26:14 2717

原创写SparkSql报错Use the CROSS JOIN syntax to allow cartesian products between these relations.;

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200414200132929.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NDk1NTM2Mw==,size_16,color_...

2020-04-14 20:05:43 3082

原创使用IDEA开发Spark SQL

指定列名添加Schemapackage SparkSqlimport org.apache.sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSessionimport java.util.Propertiesimport org.apache.avro.ipc.specific.Person...

2020-04-13 20:34:06 2595

原创 Spark SQL简单介绍

Spark SQL是Spark用来处理结构化数据的一个模块。Spark SQL还提供了多种使用方式，包括DataFrames API和Datasets API。但无论是哪种API或者是编程语言，它们都是基于同样的执行引擎，因此你可以在不同的API之间随意切换，它们各有各的特点。●Spark SQL 的特点1.易整合可以使用java、scala、python、R等语言的API操作。2.统一...

2020-04-13 20:24:06 2609

原创 Spark Core的RDD详解(2)完结

RDD累加器和广播变量在默认情况下，当Spark在集群的多个不同节点的多个任务上并行运行一个函数时，它会把函数中涉及到的每个变量，在每个任务上都生成一个副本。但是，有时候需要在多个任务之间共享变量，或者在任务(Task)和任务控制节点(Driver Program)之间共享变量。为了满足这种需求，Spark提供了两种类型的变量：1.累加器accumulators:累加器支持在所有不同节点之间...

2020-04-12 11:50:34 2235

原创 Spark 可以通过Hadoop输入格式访问HBase(创建hbase表和读取hbase数据)

package SparkSqlimport org.apache.hadoop.hbase.client.{HBaseAdmin, Put, Result}import org.apache.hadoop.hbase.io.ImmutableBytesWritableimport org.apache.hadoop.hbase.{HBaseConfiguration, HColumnDe...

2020-04-12 11:50:13 2239

原创 Spark支持通过Java JDBC访问关系型数据库

读取本地数据入MySQL表代码package SparkSqlimport java.sql.DriverManagerimport org.apache.spark.{SparkConf, SparkContext}object SparkMsql { def main(args: Array[String]): Unit = { //实例化sparkconf ...

2020-04-11 15:47:19 2652

原创记录一个zookeeper没起来的小原因

Starting zookeeper … already running as process 1980.百度查了查可能因为你上次断电异常关闭导致的删掉这个重启rm -rf zookeeper_server.pid

2020-04-09 12:49:53 2497 1

原创 Spark练习题(1)

test.txt数据如下(都是按空格分隔的):12 宋江 25 男 chinese 5012 宋江 25 男 math 6012 宋江 25 男 english 7012 吴用 20 男 chinese 5012 吴用 20 男 math 5012 吴用 20 男 english 5012 杨春 19 女 chinese 7012 杨春 19 女 math 7012 杨春 19 ...

2020-04-08 10:13:01 2703

原创 Spark Core的RDD详解(1)

(1)什么是RDD?RDD 叫做弹性分布式数据集，是Spark中最基本的数据(计算抽象),代码中是一个抽象类,代表一个不可变，可分区，里面的元素可并行计算的集合(2)RDD的主要属性1、数据集的基本组成单位，一组分片或多分区每个分片（每个分区）都会被一个计算任务处理，分片数决定并行度（与kafka相同）用户可以在创建RDD时指定RDD的分片个数，如果没有指定，那么就会采用默认值(默认值是...

2020-04-08 09:53:36 2323

原创 yran原理

在hadoop1.x中还没有yarn ，到了hadoop2.x才出现yarn1. 为什么会出现yarnhadoop1.x的时候，存在最大问题就是资源管理，随着技术的发展，人们不再满足hadoop集群只使用mapreduce一个计算框架（例如：spark mapreduce 等框架）人们更希望有一套合理的管理机制，来控制整个集群的资源管理...

2020-04-02 20:16:50 2552

原创 scala中的几种访问权限解释（只有图）

2020-03-29 17:08:55 2466 1

原创 scala中迭代器使用各种方法会报错Exception in thread "main" java.lang.UnsupportedOperationException: empty.max

原因：可以使用Iterator的 min 和 max 方法从迭代器中查找最大与最小元素。但好像同一个迭代器只能使用一次，以为Iterator的max和min方法是TraversableOnce（可遍历一次，遍历过一次之后迭代器就变为空的了）类型的，所以当第二次调用同样的方法，或第一次调用max方法第二次调用min方法时，第二次调用的方法会出现下面的错误：...

2020-03-29 15:04:28 2937

原创 scala中定义变量几种方式

scala中定义变量val定义的是不可重新赋值的变量var定义的是可重新赋值的变量在scala中，可以使用val或者var来定义变量，语法格式如下:val/var 变量标识:变量类型 = 初始值定义变量的注意事项:A : scala中定义变量类型写在变量名后面B : scala的语句最后不需要添加分好号- 在解析器中定义一个变量值为tom val name:string="to...

2020-02-10 15:07:41 5579

原创 windows上Scala安装部署

开发环境安装学习如何编写scala代码之前，需要先安装scala编译器以及开发工具Java程序编译执行流程Scala程序编译执行流程scala程序运行需要依赖于Java类库，必须要有Java运行环境，scala才能正确执行根据上述流程图，要编译运行scala程序，需要jdk（jvm）scala编译器（scala SDK）接下来，需要依次安装以下内容：安装JDK安装sc...

2020-02-05 00:40:37 2341

原创 hive语句

创建video_ori表数据以 : 字段之间以进行分割create table video_ori( videoId string, uploader string, age string, category string, length string, views string, rate string, ratings string, comments string, relatedId...

2020-01-06 15:02:17 2326

原创 HBase常用API操作

package HBaseAPI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.filter.*;import org.apache.ha...

2020-01-06 14:53:36 2400 1

原创 HBase的RegionServer服务启动了马上又消失的

先看日志信息logs把时间三个节点的时间进行同步重启就行了

2019-12-12 19:50:13 2427

原创 ZooKeeper选举机制(面试重点)

zookeeper默认的算法是FastLeaderElection，采用投票数大于半数则胜出的逻辑。全新集群选举假设目前有5台服务器，每台服务器均没有数据，它们的编号分别是1,2,3,4,5,按编号依次启动，它们的选择举过程如下： 服务器1启动，给自己投票，然后发投票信息，由于其它机器还没有启动所以它收不到反馈信息，服务器1的状态一直属于Looking。 服务器2启动，给自己投票，同时...

2019-12-10 20:13:45 2638 13

原创 Apache Sqoop 安装和导入

1． sqoop介绍Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。来自于Apache软件基金会提供。Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。Hadoop生态系统包括：HDFS、Hive、Hbase等RDBMS体系包括：My...

2019-12-04 08:38:49 2321

原创 shuffle阶段数据的压缩机制

在shuffle阶段，可以看到数据通过大量的拷贝，从map阶段输出的数据，都要通过网络拷贝，发送到reduce阶段，这一过程中，涉及到大量的网络IO，如果数据能够进行压缩，那么数据的发送量就会少得多，那么如何配置hadoop的文件压缩呢，以及hadoop当中的文件压缩支持哪些压缩算法呢？？接下来一一细看MapReduce的执行流程为什么要配置压缩：MapReduceinputmappe...

2019-11-20 08:40:21 2606

原创 MapReduce一次读取多个文件（获取数据所在文件的名称)

关键代码：在Map代码中添加一下代码，可以获取每条数据所属的文件名查看Hadoop支持的压缩格式//获取所属的文件名称FileSplit inputSplit = (FileSplit)context.getInputSplit();String Filename = inputSplit.getPath().getName();//FIlename是文件名称...

2019-11-19 21:13:07 3541

原创如何能让Map端和Reduce端达到最优？

Map端的最高效率是尽量减少环形缓冲区的次数（减少磁盘IO 的使用次数）如何能够减少环形缓冲区flush的次数：1、加大环形缓冲区的内存2、增大缓冲区阈值的大小（考虑剩余的空间是不是够系统使用）3、对输出的进行压缩（压缩-解压的过程会消耗CPU）Reduce端的最高效率是1尽量减少环形缓冲区flush的次数2、尽量将所有的数据在内存中计算在网络带宽、磁盘IO是瓶颈的前...

2019-11-19 21:04:11 2394

原创 MapReduce的执行流程

map阶段处理的数据如何传递给reduce阶段，是MapReduce框架中最关键的一个流程，这个流程就叫shuffle。 shuffle: 洗牌、发牌——（核心机制：数据分区，排序，分组，ComBine，合并等过程）shuffle是Mapreduce的核心，它分布在Mapreduce的map阶段和reduce阶段。一般把从Map产生输出开始到Reduce取得数据作为输入之前的过程称作shuffl...

2019-11-19 21:00:43 3003

原创 MapReduce并行计算框架求WordCount单词总和

**需求：计算data.txt文档中每个单词出现的次数**zhangsan,lisi,wangwuzhaoliu,qianqi,niubazhangsan,wangwuzhaoliu,niuba第一步：创建maven项目第二步：导pom.xml依赖的包<repositories> <repository> <id...

2019-11-15 22:16:56 2512

原创 java中1+1d/5和1+1/5什么区别

主要区别就是数据类型不同.1+1d/5的结果是1.2, 是double类型. 因为1d就是double类型,1d/5结果自动提升成double类型,1+1d/5结果也自动提升成double类型. .1+1/5的结果1, 是int类型, 因为1/5是整除(会丢失小数部分的精度…) . 两边操作数都是int类型. 最后在加上1还是int类型.所以结果就是int类型.java参考代码如下publ...

2019-11-14 11:07:22 2949

原创 HDFS中javaAPI创建文件写入内容报错：INFO hdfs.DFSClient: Exception in createBlockOutputStream

19/11/11 20:33:26 INFO hdfs.DFSClient: Exception in createBlockOutputStreamjava.net.ConnectException: Connection refused: no further information at sun.nio.ch.SocketChannelImpl.checkConnect(Na...

2019-11-11 20:47:08 3608

原创 Hadoop中新增节点

随着公司业务的增长，数据量越来越大，原有的数据节点的容量已经不能满足存储数据的需求，需要在原有集群基础上动态添加新的数据节点。准备工作：1.配置JDK2.配置SSH免密钥3.关闭防火墙4.关闭selinux5.修改主机名6.修改hosts注释:新增节点叫node04,namenode是node01准备新节点第一步：复制一台新的虚拟机出来将我们纯净的虚拟机复制一台出来，作为我们...

2019-11-11 08:59:38 2702 1

Git-2.20.1-64-bit.rar

Git 是一个开源的分布式版本控制系统，用于敏捷高效地处理任何或小或大的项目。 Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。

2020-06-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除