流浮影-CSDN博客

原创 Flink开发技术点

Flink开发技术点1.算子分类1.1 one-to-one1.2redistributing2.备注记1.keyby的特殊keyby是基于hashcode进行重分区的，而broadcast和rebanlance是随机重新分区sum等算子是基于keyedsteam，【普通的数据类型是Dsteam3.Flink流处理的APIflink的处理过程包含source transfer sink3.1创建执行环境 val env: StreamExecutionEnvironment

2022-02-08 13:30:31 2019

原创 Spark官网补缺之SparkStreaming

Spark官网补缺之SparkStreaming版本2.3.4 官网网址：http://spark.apache.org/docs/2.3.4/streaming-programming-guide.html文章目录Spark官网补缺之SparkStreaming1.开篇简介1.1隐式转换1.2创建StreamingContext1.3pow依赖1.4一些注意点1.5DStreams1.6输入...

2019-12-25 19:09:25 1305

原创 Spark官网补缺

Spark官网补缺(2.3.4) RDD SparkSql文章目录Spark官网补缺(2.3.4) RDD SparkSql1.RDD1.1文件格式1.2 shell操作1.3 惰性加载1.4 缓存（持久化）1.5shuffle有排序吗？ sorted blocks.1.6调优策略之序列化1.7调优策略之内存调优1.8调优的其他配置2.Spark Sql2.1.1全局临时视图2.2.1spark...

2019-12-04 19:56:34 517

原创 kylin遇见的错误

kylin遇见的错误0.普通问题0.1java.net.ConnectException: Call From MyDis/192.168.182.86 to MyDis:10020 failed on connection exception: java.net.ConnectException: Connection refused; For more details see: htt...

2019-12-03 18:59:17 1378 3

原创 kafka分布式集群的操作

kafka分布式集群的操作3.1客户端命令行3.1.1 kafka-topic.sh1，shell脚本的作用： Create：新建主题 delete：删除主题 describe：查看主题的详情 change a topic：更新主题 2，关键参数：--alter 修改主题--create Create a new topic（创建主题）. ...

2019-11-12 19:55:33 1893

原创 kafka

kafka简介和安装1.简介说明:1kafak:消息中间件框架2每个kafka服务器内部维护着一个消息队列3kafak消息服务器要正常发挥作用,必须要借助: 1)消息的发布方(生产者):源源不断产生的消息,送往消息服务器存储起来,默认消息服务器驻留的时间是7天 2)消息的订阅方(消费者):从消费服务器所维护的消息队列中读取相应的消息4 kafka消息框架涉及到的一些概念代理:br...

2019-11-12 17:31:01 154

原创 scala(三)

scala第五章文件操作import java.io.PrintWriterimport scala.io.Sourceobject FileDemo extends App {// //读取文件行// val source =Source.fromFile("src/file.txt")// //获取文件行迭代器// val lines = source.getLin...

2019-11-02 21:37:30 162

原创 spark本地提交集群运行踩过的坑

spark本地提交集群运行踩过的坑1.本地提交，集群跑spark程序设置(scala) val conf = new SparkConf().setAppName("SparkWordCount") conf.setMaster("spark://hadoop-01:7077") conf.setJars(Array("D:\\hadoop\\spark\\target\\zb...

2019-11-02 21:21:41 2728 1

原创 scala (二)

scala第三章面向对象下划线的作用:1.导依赖,代表应用某个包的全部类2.方法和函数转换,代表转换的过程3.传参,代表一个元素4.声明字段,代表赋初始值5.元组的取值,代表获取与元组的某个元素java面向对象类：类是一类事物的抽象对象：对象是一个实例java修饰符当前类，同一个包内，子类，其他包private Y ...

2019-11-01 08:50:23 310 1

原创 hbase的安装

hbase的安装单机节点安装解压[root@centos1 home]# tar -zxvf hbase-1.2.1-bin.tar.gz -C /usr/local/配置环境变量export HBASE_HOME=/usr/local/hbase-1.2.1export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_H...

2019-10-24 19:01:49 207

原创 HBase的API

HBase的apiwal的机制 WAL(Write-Ahead-Log)SKIP_WAL：不写wal日志,这种可以较大提高写入的性能，但是会存在数据丢失的危险，只有在大批量写入的时候才使用(出错了可以重新运行)，其他情况不建议使用。ASYNC_WAL：异步写入SYNC_WAL：同步写入wal日志文件，保证数据写入了DataNode节点。FSYNC_WAL: 目前不支持了，表现是与SYNC...

2019-10-23 19:14:31 186

原创 hbase shell

hbase shell命名空间注意点：我是用的1.2.11版本的hbase，所以退格键是往后删除，和平时使用习惯不太一样，ctrl+退格是往前删1. list_namespace:查询所有命名空间hbase(main):008:0> list_namespaceNAMESPACEdefaulthbase2. list_namespace_tables : 查询指定命名空间的...

2019-10-23 17:29:17 140

原创 hbase概念

hbase来源：解决随机近实时的高效的读写解决非结构化的数据存储1. hbase是一个开源的、分布式的、多版本的、可扩展的、非关系型的数据库。2. hbase是big table的开源的java版本，建立在hdfs基础之上，提供高可靠性、高性能的、列式存储、可伸缩、近实时读写的nosql的数据库系统3. 数据量越来越大，传统的关系型数据库不能满足存储和查询的需求。而hive虽然能够...

2019-10-21 19:27:35 401

原创 azkaban多个executor部署

azkaban多个executor部署多executor部署介绍Azkaban3.0+版本提供了三种安装模式：单solo-server mode：单机模式，适合开发使用。使用内置的h2数据库，web server和executor server在同一个进程里； two server mode：双机模式，适合生产环境。使用主从的MySQL做元数据存储，web server和 executor...

2019-09-25 21:19:32 1879

原创 azkaban安装Solo Server

azkaban安装 Solo Serverazkaban 3.57.0 编译1、下载源码包官网地址为:https://github.com/azkaban/azkaban/archive/3.57.0.tar.gz清空编译结果如下：[root@hadoop01 home]# tar -zxvf /home/azkaban-3.57.0.tar.gz -C /usr/local[roo...

2019-09-25 20:53:58 914 2

原创 DATAX日常踩坑

DATAX日常踩坑2019-09-22 17:14:49.482 [job-0] ERROR RetryUtil - Exception when calling callable, 异常Msg:Code:[DBUtilErrorCode-10], Description:[连接数据库失败. 请检查您的账号、密码、数据库名称、IP、Port或者向 DBA 寻求帮助(注意网络环境).]. - ...

2019-09-22 17:21:27 15774

原创转角遇见DataX

转角遇见DataXDataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。阿里datax网址（本文摘自阿里datax介绍）：https://github.com...

2019-09-22 15:23:54 880

原创 sqoop导入的一些问题

sqoop导入的一些问题以下为sqoop语句有问题，一定注意语句后的 \ 。 \前要空格，\后不要空格--null-non-string 0 \--null-string '123' \原数据如果为null的话，会被替换‘成 ’的内容版本1.4.7这种模式使用lastmodifyed 可以使用merge-key覆盖。（路径为hive表路径）因为1.4.7不支持lastmod...

2019-09-21 17:05:33 202

原创 hive的补充

hive的补充hive的分隔符hive默认的列与列之间的分隔符是：\001,注意不是tab通常分隔符：tab," "|\n\001 ^A (\u0001,注意不是\0001也不是\01)\002 ^B\003 ^Cposeexplode:hive的文件存储格式：hive默认的数据文件存储格式为：textfiletextfile：普通的文本文件存储，不压缩。占用空间，...

2019-09-21 14:39:41 261

原创 hive的数据倾斜

hive的数据倾斜数据倾斜：由于key分布不均匀造成的数据向一个方向偏离的现象本身数据就倾斜：join语句容易造成count(distinct col)很容易造成倾斜group by 也可能造成注意hive的倾斜join key在reduce端的分配不均匀倾斜现象：卡在某一个reduce任务。解决方法：1.找到造成倾斜的key，然后再通过hql语句避免（查看日志是哪个tas...

2019-09-21 14:36:16 134

原创 hive调优

hive调优1、环境方面：服务器的配置、容器的配置、环境搭建2、具体软件配置参数：3、代码级别的优化：执行计划explain 和 explain extended ：explain select * from text1;explain extended select * from text1;explain extendedselectd.deptno as deptno...

2019-09-21 14:19:01 185

原创数据加密

初视数据加密 +ssh公钥认证加密(Encryption)是对原始数据进行数学变换，使得加密后在网络上公开传输的内容对于非法接收者来说毫无意义、无法读懂，而合法接收者持有正确的密钥，可以通过解密(Decryption)获得原始数据。其中，加密前的原始数据称为明文(Plaintext)，加密后获得的看上去杂乱无章、毫无意义的数据称为密文(Ciphertext)加密、解密变换分别是一个依赖于所...

2019-09-21 11:24:10 558

原创 sqoop

遇见sqoop版本:sqoop 1.4.7hadoop 2.7.7hive 2.3.6sqoopsqoop的–helpusage: sqoop COMMAND [ARGS]Available commands: codegen Generate code to interact with database records create-hive-ta...

2019-09-21 10:55:45 238

原创 scala入门（一）

scala入门（一）数据类型变量名；数据类型变量名 = 初始化值；scala 定义变量var 变量名 = 初始化值var 变量名：数据类型=初始化值var a=1定义变量的时候需要初始化值定义变量的时候可以不指定变量的数据类型，系统会根据变量的初始化值推断变量的数据类型scala定义常量val 变量 =初始化值val 变量：数据类型=初始化值val修饰的变量，相当于ja...

2019-09-21 09:31:17 233

原创从mysql的存储过程到hive的存储过程

mysql的存储过程在mysql中的声明字段：使用关键字：declare普通类型申明格式如下：Decalare 字段名字段类型(位数) [default 默认值];如:declare name varchar(45) default ‘’;在mysql中的赋值：使用关键字：set如: Set i =100;在mysql中判断常用的是if...end if 、if...e...

2019-09-20 17:06:02 781

原创 hive基础语法三

hive基础语法三from --map阶段join --map(有map端join)或者reduce（reduce join）onwhere --map端group by --reduce阶段having --reduce端select --reduce端（或者map端）order by --reduce端limit --reduce端（或者map端）基础数据类型...

2019-09-20 16:43:41 467

原创 hive基础语法二

hive语句二分区表概念分区意义：避免全表扫描，从而提高查询效率；默认使用全表扫描。使用什么样的分区：日期、区域、能将数据分散开来分区技术：[PARTITIONED BY (COLUMNNAME COLUMNTYPE [COMMENT 'COLUMN COMMENT'],...)]1.hive的分区名区分大小写2.hive的分区字段是一个伪字段，但是可以用来进行操作3.一个表可...

2019-09-20 16:37:50 1164

原创 hive基础语法一

hive基础语法一set $属性（变量）;with tmp as();select from( select a.id id, a.name name from test left join test1 b on .... join ... where group by having order b...

2019-09-20 16:32:11 254

原创 Hive的安装部署

Hive的安装部署hive1.2.1Hive常用的安装分三种(注意：Hive会自动监测Hadoop的环境变量，如有就必须启动Hadoop)本地模式(多用户模式)：使用hive自带默认元数据库derby来进行存储，通常用于测试优点：使用简单，不用进行配置缺点：只支持单session。安装步骤：1、解压hive，并配置环境变量vi /etc/profilesource /etc/...

2019-09-20 16:26:39 120

原创浅谈hive

浅谈hivehive2.5.1 Hive是什么###2.5.1.1 为什么有HiveHive最初是应Facebook每天产生的海量新兴社会网络数据进行管理和机器学习的需求而产生和发展的。数据量大，处理的效率比较低mapreduce学习成本比较高类sql的用法，工作效率高入门比较简单2.5.1.2 Hive是什么hive是一个数据仓库。hive是一个基于hadoop的数据仓库...

2019-09-20 16:22:49 210

原创 hadoop的组件mr

mr整体流程maptask调用FileInputFormat的createRecordReader(底层lineRecordReader)读取分片数据每行数据读取一次，返回一个(K,V)对，K是offset,V是一行数据将k-v对交给maptask处理每对k-v调用一次map(K,V，context)方法，然后context.write(k,v)写出的数据交给收集器OutputCo...

2019-09-20 16:14:53 341

原创 yarn的Scheduler

yarn的Scheduler调度器先进先出调度hadoop1.x使用的默认调度器就是FIFO。FIFO采用队列方式将一个一个job任务按照时间先后顺序进行服务。比如排在最前面的job需要若干maptask和若干reducetask，当发现有空闲的服务器节点就分配给这个job，直到job执行完毕。公平调度公平调度器按资源池（pool）来组织作业，并把资源公平的分到这些资源池里。默认情...

2019-09-20 16:09:05 260

原创 hadoop的组件yarn

hadoop的组件yarnYARN分布式资源管理框架：hadoop1.0hadoop2.0Scheduler :调度器（容量调度，公平调度。FIFO）container：资源容器（抽象概念）ApplicationsManager(job-submissions)negotion the frist container for executing the applicatio...

2019-09-20 16:06:20 697

原创 hadoop的checkpoint

hadoop的checkpointSecondaryNameNode通过定时查询 namenode上的edit logs 来保证 fsimage的及时更新时刻复制 active的Namenode工作节点的快照。合并namenode 的 edit log 合并到 fsimage上1.定时获取active状态的namenode节点的 edit logs 并更新到 fsimage [S...

2019-09-20 15:55:26 596

原创 hadoop的组件hdfs

分布式文件系统HDFSHDFS架构HDFS工作机制HDFS概念HDFS，它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。HDFS的设计适合一次写入，多次读出的场景，且不支持文件的修改。适合用来做数据分析，并不适合用来做网盘应用。HDFS优缺点优点:1）高容错性：数据自动保存多个副本，当一个副本丢失...

2019-09-20 15:48:35 257

原创浅谈spring boot+MVC

浅谈spring boot+MVC:application.propertiesserver.port=10000//spring.data.mongodb.uri=mongodb://localhost:27017/db2spring.datasource.driver-class-name=com.mysql.jdbc.Driverspring.datasource.username=r...

2019-09-20 15:30:58 622 2

原创浅谈mongodb

MongoDB非关系型数据库（）下表列出了 RDBMS 与 MongoDB 对应的术语：RDBMSMongoDB数据库数据库表格集合行文档列字段表联合嵌入文档主键主键 (MongoDB 提供了 key 为 _id )数据库服务和客户端Mysqld/Oraclemongodmysql/sqlplusmong...

2019-09-20 15:26:28 143

原创 mysql进阶知识

数据库高级知识存储引擎:InnDB 和 MyISAM许多人在使用Mysql 时最常用的俩个表类型,这两个表各有优赖,视具体情况应用而定基本的差别为：MyISAM类型不支持事务处理等高级处理，而InnoDB类型支持。MyISAM类型的表强调的是性能，其执行数度比InnoDB类型更快，但是不提供事务支持，而InnoDB提供事务支持以及外部键等高级数据库功能。以下是一些细节和具体实现的差...

2019-09-20 15:21:31 178

原创 jdbc从入门到放弃、xml、测试、注解

JDBC从入门到放弃jdbc:jdbc的基础:准备工作:1.导入数据库驱动的架包(.jar文件)2.要对架包进行buildPath操作3.建立代码实现的数据库的访问java database connectivity SuN公司创建连接三个参数的第一个参数:数据库的访问路径第二个参数:用户名第三个参数:密码jdbc 工作原理Connection ...

2019-09-20 15:15:22 221

原创 mysql基础知识（二）

mysql基础知识（二）多表查询多表查询有如下几种：合并结果集；UNION 、 UNION ALL 了解连接查询内连接 [INNER] JOIN ON外连接 OUTER JOIN ON左外连接 LEFT [OUTER] JOIN右外连接 RIGHT [OUTER] JOIN全外连接（MySQL不支持）FULL JOIN自然连接 NATURAL JOIN子查询外键...

2019-09-20 15:05:32 125

derby.jar 。。

java.lang.NoClassDefFoundError: Could not initialize class org.apache.derby.jdbc.AutoloadedDriver40 导致的原因：在azkaban的server和executor中缺少一个叫derby.jar的包

2019-09-25

java-json.7z

sqoop.Sqoop: Got exception running Sqoop: java.lang.NullPointerException，没遇到可以跳过 19/09/20 09:57:47 ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.NullPointerException at org.json.JSONObject.<init>(JSONObject.java:144) ## 缺少的东西 at org.apache.sqoop.util.SqoopJsonUtil.getJsonStringforMap(SqoopJsonUtil.java:43) at org.apache.sqoop.SqoopOptions.writeProperties(SqoopOptions.java:785) at org.apache.sqoop.metastore.hsqldb.HsqldbJobStorage.createInternal(HsqldbJobStorage.java:399) at org.apache.sqoop.metastore.hsqldb.HsqldbJobStorage.create(HsqldbJobStorage.java:379) at org.apache.sqoop.tool.JobTool.createJob(JobTool.java:181) at org.apache.sqoop.tool.JobTool.run(JobTool.java:294) at org.apache.sqoop.Sqoop.run(Sqoop.java:147) at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70) at org.apache.sqoop.Sqoop.runSqoop(Sqoop.java:183) at org.apache.sqoop.Sqoop.runTool(Sqoop.java:234) at org.apache.sqoop.Sqoop.runTool(Sqoop.java:243) at org.apache.sqoop.Sqoop.main(Sqoop.java:252) 查了半天是缺少java-json.jar这么一个jar包。

2019-09-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人