不将就的cris-CSDN博客

原创 [Errno 14] PYCURL ERROR 22 - "The requested URL returned error: 416 Requested Range Not Satisfiable"

安装Docker在设置远程仓库时报错，报错信息如下：https://download.docker.com/linux/centos/docker-ce.repo: [Errno 14] PYCURL ERROR 22 - "The requested URL returned error: 416 Requested Range Not Satisfiable"尝试其他镜像。本人设置的默...

2020-03-30 00:26:48 3167 1

原创 wget: unable to resolve host address “download.redis.io”

下载Redis时，报如下错误：wget: unable to resolve host address “download.redis.io”翻译下来是wget：无法解析主机地址，度娘处查找发现是DNS解析的问题解决办法：编辑/etc/resolv.conf文件[root@cos100 soft]# vim /etc/resolv.conf增加Google的DNS服务器IP# Gen...

2020-03-21 23:30:58 3969

原创 Hbase的RowKey设计原理

rowKey设计需要遵循三大原则：唯一性原则rowkey在设计时必须保证其唯一性，这是由于HBase的核心存储结构是KeyValue形式，在同个版本表格的情况下，如果后添加的rowkey与已有的相同，则会覆盖原先的数据。补充：排序原则在Hbase中，rowkey是按照Ascll的顺序排序存储的，因此在rowkey的设计时，要充分利用这个特点，将经常读取的数据存储到一块，将最近可能会被...

2020-03-10 21:11:40 738 1

原创 Sqoop简单案例之非大数据集群(RDBMS)与大数据集群之间的数据传输

一. 导入数据(非大数据集群(RDBMS)=>大数据集群)Sqoop中，"导入"概念指：从非大数据集群(RDBMS)向大数据集群(如HDFS，HIVE，HBASE)中传输数据，即使用import关键字。从RDBMS到HDFS1). 开启Hadoop集群[root@cos100 sqoop]# start-all.sh2). 开启Mysql服务[root@cos100 sqo...

2020-03-10 16:55:27 406

原创 Sqoop的安装部署

一. 概述Sqoop是什么？Sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。(详细信息请参考百度百科，地址https://...

2020-03-10 16:52:48 261

原创 SparkStreaming之Kafka数据源

案例需求：通过SparkStreaming从Kafka读取数据，并将读取过来的数据做简单计算(WordCount)，最终打印到控制台。准备工作1). 使用IDEA工具创建Maven项目，并导入如下依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId&gt...

2020-03-01 14:46:54 438

原创 Note: System times on machines may be out of sync. Check system time and time zones.

将数据从mysql向hdfs上传时运行出现如下错误：Note: System times on machines may be out of sync. Check system time and time zones. at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method) at sun.reflec...

2020-02-29 14:11:01 1190

原创 Kafka之自定义拦截器

一. 拦截器原理Producer拦截器(interceptor)和Consumer拦截器是在Kafka 0.10版本被引入的，主要用于实现clients端的定制化控制逻辑。对于producer而言，interceptor使得用户在消息发送前以及producer回调逻辑前有机会对消息做一些定制化需求，比如修改消息等。同时，producer允许用户指定多个interceptor按序作用于同一条消息...

2020-02-28 22:55:56 303

原创 Kafka监控之KafkaOffsetMonitor和Kafka Manager

一. KafkaOffsetMonitorKafkaOffsetMonitor是Kafka的可视化管理与监控工具，可以为Kafka的稳定运维提供高效、可靠、稳定的保障。且程序以jar包的方式运行，部署较为方便。官网下载jar包(https://github.com/quantifind/KafkaOffsetMonitor)打开虚拟机并在/usr/local/cluster下创建kafka...

2020-02-26 21:18:21 886 2

原创 Kafka简单案例之异步发送消息

一. 案例需求使用IDEA工具创建Maven项目编写APIProducer端采用异步生产发送消息Consumer端在虚拟机开启窗口消费数据二. 异步发送API实战导入Kafka的依赖<dependencies> <dependency> <groupId>org.apache.kafka</group...

2020-02-24 13:04:37 1155

原创 Kafka的常用命令行操作及单机连通性测试

No1. 常用命令行操作查看当前服务器中的所有topic[root@cos100 kafka]# bin/kafka-topics.sh --zookeeper cos100:2181 --list创建topic[root@cos100 kafka]# bin/kafka-topics.sh --zookeeper cos100:2181 --create --replicati...

2020-02-23 12:57:14 2375

原创 Zookeeper和Kafka的群起/群关脚本

初始使用Zookeeper时，由于集群配置了三台机器，每次启动都要一台一台输入命令启动，觉得要是和Hadoop一样可以群起多好，直到后来配置了Kafka，发现又是得一台一台输入命令启动，好烦~~在查看了Hadoop的启动命令源码后，想一想自己可不可以模仿出一个命令来实现群起Zookeeper和Kafka，如下为Hadoop的启动命令源码[root@cos100 sbin]# vim start...

2020-02-23 11:57:14 421 1

原创 Kafka的安装部署

一. 概述Kafka简介Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。详细信息请参考百度百科，地址：https://baike.baidu.com/item/Kafka/17930165?fr=aladdin二 .部署环境准备操作系统：Centos 6...

2020-02-22 20:13:11 182

原创 IDEA工具中pom.xml文件导入依赖后报红

IDEA工具创建Maven项目，pom.xml文件导入依赖报红问题解决在使用IEDA工具写代码需要导入flume的依赖，加入依赖后无法导入，一直报红。做了如下尝试：1. 在页面右上侧点击Maven，查看Maven项目状态，如下红色框选右侧部分，如果此标志为深颜色则表示处于离线状态，需要再次点击使其恢复正常状态后重新导入依赖2. 如上图片，在Maven项目显示栏，Lifecycle下拉框...

2020-02-20 20:07:50 4660

原创 Flume监控之Ganglia

Ganglia简介Ganglia是UC Berkeley发起的一个开源集群监视可视化工具，设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能，如：cpu 、mem、硬盘利用率， I/O负载、网络流量情况等，通过曲线很容易见到每个节点的工作状态，对合理调整、分配系统资源，提高系统整体性能起到重要作用。其详细介绍和工作原理请参考百...

2020-02-20 15:01:59 584 2

原创 Flume简单案例之实时监控端口数据

1. 案例需求使用Flume监控本机的44444端口，开两个端口分别作为服务端和客户端。客户端：使用netcat工具向本机44444端口发送数据服务端：将监听的数据实时显示在控制台2. 准备工作1). 安装netcat工具[root@cos100 cluster]# mkdir netcat[root@cos100 cluster]# yum install wget[root@c...

2020-02-19 14:13:55 771

原创 Flume的安装部署

一. 概述Flume定义Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。Flume的优点1). 可以和任意存储进程集成(灵活，数据源多样化)2). 当输入的数据速率大于写入目的存储的速率时，flume会进行缓...

2020-02-19 12:08:49 263

原创 DStream输出之使用foreachRDD()将数据写入诸如Mysql的外部数据库中

前言输出操作指定了对流数据经转化操作得到的数据所要执行的操作(例如把结果推入外部数据库或输出到屏幕上)。与RDD中的惰性求值类似，如果一个DStream及其派生出的DStream都没有被执行输出操作，那么这些DStream就都不会被求值。如果StreamingContext中没有设定输出操作，整个context就都不会启动。常用输出操作当前，定义了以下输出操作:输出操作含义...

2020-02-18 12:53:54 1251

原创 Exception in thread "main" java.lang.NoSuchMethodError: scala.Product.$init$(Lscala/Product;)V

使用IDEA工具运行SparkStreaming的WordCount时，运行报错，报错信息如下:Exception in thread "main" java.lang.NoSuchMethodError: scala.Product.$init$(Lscala/Product;)V at org.apache.spark.streaming.Duration.<init>(Dur...

2020-02-15 13:02:18 7264

原创 java.sql.SQLException: null, message from server: "Host 'XXXXX' is not allowed to connect

本人问题出现在，在linux的spark shell上，使用JDBC从其他数据库读取数据时，已导入mysql-connector-java-5.1.47-bin.jar包，运行代码时报错。//以下xxx.xxx.xx.x为本机ip,saprksqltest为mysql的数据库名，data为数据库中表名val jdbcDF = spark.read .format("jdbc") .opti...

2020-02-14 16:44:05 1053

原创 Spark SQL数据操作的两种风格语法

前提工作创建SparkSessionimport org.apache.spark.sql.SparkSessionval spark = SparkSession .builder() .appName("Spark SQL basic example") .config("spark.some.config.option", "some-value") .getOrCreat...

2020-02-13 17:49:30 597

原创 Spark SQL案例之疫情分析

前言2020年春节，武汉爆发新型冠状病毒，形势严峻请使用Spark SQL分析疫情数据，完成以下任务，为打赢疫情防控狙击战做出贡献(以下数据等为案例示例所用，纯属虚构)疫情防控有关数据表1). 人员信息civic_info.csv2). 票务信息ticket_info.csv任务需求分析湖北籍人员信息武汉疫区人员信息需要对员工进行隔离观察14天的公司有感染风...

2020-02-11 16:48:20 1293

原创 SparkSession的简介和方法详解

简介SparkSession类是Spark中所有功能的入口点。可以使用SparkSession.builder()来创建一个基本的SparkSession实例，通过SparkSession.stop()来停止。import org.apache.spark.sql.SparkSessionval spark = SparkSession .builder() .appName("Sp...

2020-02-10 21:14:54 5505

原创 Spark Sql常见的几种数据源

前言Spark SQL的DataFrame接口支持多种数据源的操作。可以使用关系转换进行操作，也可以被注册为临时视图。将DataFrame注册为临时视图，即可以通过SQL进行数据查询。Spark SQL的默认数据源格式为Parquet文件格式，修改配置项spark.sql.sources.default即可更改默认的数据源格式。一. 通用加载/保存功能操作默认数据源//load用于rea...

2020-02-09 18:09:34 4486

原创 Spark Sql中DataSet与RDD互操作的两种方式

介绍Spark Sql支持两种将现有RDD转换为DataSet的方式1.使用反射来推断包含特定对象类型RDD的数据结构当在编写Spark应用时已经了解数据结构，即应用可以推断RDD的数据结构时，即可使用此方法，这种基于反射的方法可以使代码更为简洁2.通过编程界面来创建DataSet，然后将其映射到RDD上当在运行Spark应用时才得知数据结构，即应用无法推断RDD的数据结构时，则使用此方...

2020-02-07 21:41:14 588

原创 Spark Session创建临时视图和全局临时视图的区别

根据Spark的官方文档解释:临时视图createOrReplaceTempView（）的作用域为当前创建的会话，一旦此会话终止，则此临时视图消失，不能与其他的SparkSession共享。全局临时视图createGlobalTempView（）的作用域为一个Spark应用程序，此视图在所有会话之间共享并保持活动状态，直到Spark应用程序终止。用Windows版本的Spark本地模式运行代...

2020-02-07 00:02:10 1852

原创 Oracle数据库的存储过程创建和调用方法

其类似于java中自定义的方法，可以将一条或多条sql语句写在存储过程的函数体中，一次性执行多条，减少jdbc连接关闭的损耗，从而提高效率如何创建？1.无参create or replace procedure p1(存储过程名称)isbid1 number(9);beginbid1:=2;delete from stu where bid = bid1;delete from ...

2020-01-09 00:35:36 488

weixin_45568872的博客