自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(47)
  • 收藏
  • 关注

转载 Spark读写Phoenix

Phoenix是使用Java编写的一个开源项目,基于在HBase之上的一个SQL层,能让我们通过标准的JDBC API读写HBase,而不用Scan或者get的方式,其实底层是将SQL编译成原生的HBase scans进行查询。 本文将通过Spark的方式来读写Phoenix,基于以下版本开发测试。 scala-version:2.11.8 spark-version:2.2.0...

2019-07-15 10:20:41 3458 1

转载 Hbase的RowKey的设计

对于关系型数据库,数据定位可以理解为“二维坐标”;但是hbase中需要四维来定位一个单元格,即[行健、列族、列限定符、时间戳]HBase中rowkey可以唯一标识一行记录,在HBase查询的时候,有以下几种方式:1、 通过get方式,指定rowkey获取唯一一条记录2、 通过scan方式,设置startRow和stopRow参数进行范围匹配3、 全表扫描,即直接扫描整张表中所有行记录什么...

2019-07-09 14:59:19 168

原创 CDH上的Shell脚本————用于脚本调度做准备的

#!/bin/bashbindir=$(cd $(dirname 0);pwd)echo"bindir=0);pwd)echo "bindir=0);pwd)echo"bindir=bindir"day=date -d -1hour +%Y-%m-%dhour=date -d -1hour +%Hif [ $# -eq 2 ];thenecho “...

2019-07-09 11:12:57 562

转载 Oozie调度引擎

Oozie是一个管理Hadoop作业、可伸缩、可扩展、可靠的工作流调度系统,它内部定义了三种作业:工作流作业:由一系列动作构成的有向无环图(DAGs)协调器作业:按时间频率周期性触发Oozie工作流的作业3.Bundle作业:管理协调器作业一、首先示例提交HiveSQL脚本- 即时执行1.进入到hue界面,点击【Query】- 【Schedule】- 【WorkFlow】,编...

2019-07-08 15:05:41 316

原创 Spark的架构以及driver的理解

这里先主要理解spark运行在四种资源管理器下的模式上图为spark的架构图,spark的组件可以分为三个部分,driver、cluster Manager、worker(executor)standalone模式:standalone模式既独立模式,自带完整服务,可单独部署到一个集群中,无需依赖其他任何资源管理系统,只支持FIFO调度器。从一定程度上说,它是spark on yarn 和...

2019-07-05 10:39:23 4140 1

原创 用spark streaming实时读取hdfs数据并写入elasticsearch中

1、写sqoop脚本将mysql数据定时导入到hdfs中,然后用spark streaming实时读取hdfs的数据,并把数据写入elasticsearch中2、代码:package com.bigdataimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDimport org.a...

2019-07-04 12:04:23 1395

原创 ElasticSearch的整套资料

学习网址:https://elasticstack.blog.csdn.net/article/details/102728604?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-4.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2

2020-10-23 11:47:35 129

原创 Git在Linux上的基础操作

Git的基础操作:管理本地仓库,关联远程仓库//初始化:git config --global user.name “name” //设置用户名git config --global user.email “email” //设置邮箱//将远程仓库复制到本地git clone url//将文件夹设置为git仓库git init//如果没有克隆仓库,不使用init,将已经建立好仓库,关联到远程github仓库git remote add origin <url.git>/

2020-08-25 15:35:16 164

原创 Python连接各种库的API在Pycharm中的安装

一、Pycharm(python的版本2.7): 安装pyhs2 (备注:pyhs2函数库是python用来连接hive数据仓库的)1、下载sasl:pip install sasl-0.2.1-cp27-cp27m-win_amd64.whl下载pyhs2: pip install pyhs2-0.6.0-py2.py3-none-any.whl那么他们的下载地址:https://w...

2020-04-10 03:10:19 1638

原创 hive的任务运行时报The maximum path component name limit的错误

mds_engine_wifi的任务运行hive时报错,改表是分区表,分区是dt,channel,apptoken运行报错的日志如下:Caused by: org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.protocol....

2020-02-27 21:43:38 1232

原创 大数据任务脚本(二)

内容:#!/bin/bashif [ ! -n “$1” ] ;thendate=date -d today +%Y-%m-%delsedate=$1fiif [ ! -n "2"];thendate1=2" ] ;then date1=2"];thendate1=dateelsedate1=$2fito_date=date +%Y%m%d -d "$date +1...

2020-01-19 18:03:53 180

原创 Hive脚本执行时参数的传参

使用-hiveconf传参: 测试脚本: -- test.sql select 'Start Testing ...'; select ${hiveconf:day}, '${hiveconf:url}'; select 'Test End!';命令行:hive -hiveconf day=20180716 -hiv...

2020-01-15 17:48:03 1381

原创 k8s集群搭建-学习使用

1、准备工作Docker       18.09.0kubeadm-1.14.0-0kubelet-1.14.0-0kubectl-1.14.0-0k8s.gcr.io/kube-apiserver:v1.14.0k8s.gcr.io/kube-controller-manager:v1.14.0k8s.gcr.io/kube-scheduler:v1....

2019-12-19 15:50:46 214

原创 Spark的JVM调优及优化方法

Spark调优相关的JVM调优,这个调优方法在开发中也很常见,他主要分为两种,一种是降低cache操作的内存占比,一种是调节executor堆外内存和降低连接等待时长。在此之前,我们先来了解一下 JVM的堆内存。堆内存存放我们创建的一些对象,有老年代和年轻代。理想情况下,老年代都是放一些生命周期很长的对象,数量应该是很少的,比如数据库连接池。我们在spark task执行算子函数(我们自己写的...

2019-11-14 22:53:07 204

原创 对json格式的数据的解析

对于Json格式数据的解析,除了谷歌的Gson、阿里巴巴的fastjson之外,我们这里要介绍的也是一个强大的工具类:json4sjson4s在scala语言中对json格式的数据解析用得比较多。方法:package com.mhl.testimport org.json4s.JsonDSL._import org.json4s.jackson.JsonMethods._import ...

2019-08-05 11:12:35 408

原创 Spark读取Hdfs的数据批量导入MySQL

背景:一般情况下,我们在大数据使用中,我们习惯用Spark来做计算,用JAVA来JDBC MySQL库,随着Spark的成熟,Spark自己也有实现一套连接Mysql的方法。这里主要以Spark Core 来处理数据,然后用JDBC 来批量导入数据。工程:我们的数据工程通过flume收集nginx上数据,直接落地到Hdfs,然后用SparkCore 解析处理数据,JDBC批量入MySQL库。主...

2019-08-05 10:40:19 1155

原创 在JAVA项目中主键id自动生成----------IdWorker(每一秒可以生成4000多个,都不重复)

maven依赖的jar包:com.baomidoumybatis-plus-boot-starter3.0.7.1所用的类:package com.mhl.utils;import java.lang.management.ManagementFactory;import java.net.InetAddress;import java.net.NetworkInterfac...

2019-07-30 12:43:48 2335

原创 linux系统中设置系统的时间开机自动同步服务器或者节点的时间

第一步:linux设置开机同步时间在/etc/init.d/下新建synchronized_date脚本,添加如下内容:#!/bin/bash#chkconfig: 345 63 37#chkconfig:345 63 37 (数字345是指在运行级别为3、4、5时启动;数字63是指启动的优先级;数字 37是指停止的优先级)/usr/sbin/ntpdate us.pool.ntp.o...

2019-07-27 17:36:17 759

转载 DataX介绍

一. DataX3.0概览DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。设计理念为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将...

2019-07-23 18:27:16 218

原创 Datax的json配置文件的问题

主要例子:eg 从Mysql库数据导入hbase中<以Mysql库中的表中的数据全量的导入hbase>:那么rowkey的设计就很重要至少要设计一个每次都会唯一的字段设计进去,这样得到的一条数据才是所有的。比如,我们有一个字段叫:“广告ID”,这个字段是广告类型的一个唯一标识,但是我mysql库的表里面的数据肯定是有全量的数据,也就是同一广告id可能出现多次,那么为了设计唯一的一...

2019-07-23 18:03:55 3437 1

原创 phoenix的客户端操作工具Squirrel

客户端工具Squirrel下载:https://www.cnblogs.com/laov/p/4137136.htmlHBase,可以用HBase shell进行操作,也可以用HBase Java api进行操作。HBase虽然是一个数据库,但是它的查询语句,很不太好用。要是能像使用Mysql等关系型数据库一样用sql语句操作HBase,那就很Perfect了。现有工具有很多Hiv...

2019-07-22 18:23:45 1299

原创 Phoenix和Hbase的一般FAQ问题

第一:建表问题:(1):如果在phoenix中建表,那么表建好以后,它会自动映射到hbase库里面,即hbase库里面就有这个表了,如果像phoenix中的表插入数据,那么数据会自动在hbase库中映射表中插入数据。(2):如果是先在hbase中建表,那么phoenix中是不存在这个相同的表的,因此要在phoenix中映射有hbase中这个相同的表,那么就必须在phoenix中创建相同的表,...

2019-07-19 16:29:14 812

原创 利用datax数据同步工具将MySLQ的数据导入到Hbase数据库-----------全套流程

第一:MySQL数据库中的表的结构如下:DROP TABLE IF EXISTS mhl_device;CREATE TABLE mhl_device (0 id bigint(20) NOT NULL,1 update_time datetime DEFAULT NULL COMMENT ‘更新时间’,2 create_time datetime DEFAULT NULL COMMEN...

2019-07-18 15:13:54 1661 1

原创 crontab任务执行的环境

实际在大数据工作中,有的时候对于平台调度不熟的朋友,可能会选择使用crontab来调度那么在crontab的调度中我们经常会碰到这样的一个问题:有的时候手动执行shell脚本任务时能成功,但是crontab调度执行时失败,详细排查发现手动的执行环境和crontab不一样。在调度脚本上source当前账户的bash_profile配置,问题解决。crontab执行环境在/etc/crontab...

2019-07-18 14:30:16 501

原创 利用datax数据同步工具的简单入门

hbase的版本:1.3 (依然可以导入)配置文件

2019-07-17 10:52:02 1025

转载 数据预处理 特征工程 之库sklearn-pandas

熟悉数据分析行业,python 栈,基本都会使用numpy pandas sklearn ,使用sklearn 在做特征工程时,其操作对象是 numpy 的数组,而不是 pandas 的dataframe,但是 长期以来 我们多维数据承装 的容器都是选择dataframe,其安全可靠 便捷 灵活 轻巧 等特性 秒杀其他语言的任何容器。但是在对 dataframe做特征工程时 ,简单的使用pan...

2019-07-12 15:34:06 928 1

原创 Hive的开窗函数

1、sum()over(partition by …) (累加求和) select cookieid,create_time,pv, sum(pv) over(partition by cookieid order by createtime) as pv1, -- 默认为从起点到当前行 sum(pv) ov...

2019-07-12 09:48:36 241

原创 Spark在Windows本地读取Hdfs上的文件

Windows本地上,Spark读取Hdfs上文件:需要满足的条件:(1)需要访问hdfs的路径:即可以配置core-site.xml,hdfs-site.xml文件(2)设置访问hdfs上的用户: System.setProperty(“HADOOP_USER_NAME”,“hdfs”)(3)Spark程序中的Master设置在本地即:local条件(1)的core-site.xml文...

2019-07-10 14:46:39 2528

原创 大数据的配置文件:Properties

package com.learning.bigdata.bigdataimport java.io.InputStreamimport java.util.Propertiesimport org.apache.commons.lang3.StringUtilsobject properties {def main(args: Array[String]): Unit = {//Pr...

2019-07-10 10:38:12 402

原创 大数据中的Utils工具类的各种方法

大数据中的Utils工具类的各种方法参考:package com.learning.bigdata.utilsimport java.io.{FileInputStream, InputStream}import java.text.SimpleDateFormatimport java.util.{Calendar,Properties}import org.apache.common...

2019-07-10 10:34:45 831

原创 大数据中对原始数据中的时间的解析

大数据中对原始数据中的时间的解析eg:[12/Sep/2018:23:33:53 +0800]package com.learning.bigdata.utils;import java.text.DateFormat;import java.text.SimpleDateFormat;import java.util.Date;import java.util.Locale;publ...

2019-07-10 10:29:04 489

原创 Hbase的基础Java代码操作

package com.learning.bigdata;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop...

2019-07-10 10:18:41 294

转载 ThreadLocal用于多线程并发

说明:面试官:讲讲你对ThreadLocal的一些理解。那么我们该怎么回答呢????你也可以思考下,下面看看零度的思考;ThreadLocal用在什么地方?ThreadLocal一些细节!ThreadLocal的最佳实践!思考ThreadLocal用在什么地方?讨论ThreadLocal用在什么地方前,我们先明确下,如果仅仅就一个线程,那么都不用谈ThreadLocal的,Thre...

2019-07-10 10:12:10 484

转载 为了追求极致的性能,Kafka掌控了这11项要领

Kafka在性能优化方面做了哪些举措,这个问题也是Kafka面试的时候的常见问题,面试官问你这个问题也不算刁难你。在网上也有很多相关的文章开讲解这个问题,比如之前各大公众号转载的“为什么Kafka这么快?”,这些文章我看了,写的不错,问题在于只是罗列了部分的要领,没有全部的详述出来。本文所罗列的要领会比你们网上搜寻到的都多,如果你在看完本篇文章之后,在面试的时候遇到相关问题,相信你一定能让面试官眼...

2019-07-10 09:42:19 107

转载 Hue+Oozie调度之Shell脚本的调度

1、先准备两个脚本:test1.shtest2.shsh test1.sh 2018-11-20 执行结果为:2、将脚本上传到hdfs3、hue上配置调度脚本新建一个workflow拖拉一个shell action选择需要执行的shell(此处是去hdfs上选择shell脚本,这里选择/test2.sh)配置shell执行过程中所有需要的文件(这个如果不配置,会报找...

2019-07-09 11:33:01 1975 1

转载 Hbase的基本Shell命令

一、启动habse分布式集群在集群的某个节点启动hbase集群的命令:start-hbase.sh二、进入hbase的客服端命令:hbase shell三、hbase基本shell命令:注意HBase Shell 中的回格键没用,要用【Ctrl+Backspace】,每个命令之后不需要分号(;)结束。HBase帮助命令:hbase(main):003:0> help ‘creat...

2019-07-09 10:18:54 2388

原创 Phoenix的Shell命令

1,进入(hbase01是主机名,2181是zookeeper的端口)sqlline.py hbase01:21812,退出(注意结尾不加分号)!quit3,查询所有表(注意结尾不加分号)!tables4,创建表(除了上面带感叹号的语句,其余语句都得加分号)(1)表名和列族名以及表名如果需要小写都得加双引号。create table “person” (“id” integer n...

2019-07-08 11:58:53 1317

转载 Phoenix的入门和操作

转自博客地址:https://yq.aliyun.com/articles/574090?spm=a2c4g.11186623.2.3.FuOIry简介:Phoenix是一个开源的HBASE SQL层。它不仅可以使用标准的JDBC API替代HBASE client API创建表,插入和查询HBASE,也支持二级索引、事物以及多种SQL层优化。此系列文章将会从Phoenix的语法和功能特性、...

2019-07-08 11:21:50 204

原创 Hive脚本以及用Hive脚本的Crontab任务调度

一、hive执行脚本1、hive -e “sql语句”会将查询的结果打印在控制台上。2、hive -e “sql语句” >> xxx >xxx如果是“>>xxx”会将查询的结果重定向到xxx文件中,会显示OK和抓取的数据条数 ,并且后续的日志都会追加在前一条日志后面。如果是“ >xxx”会将查询的结果重定向到xxx文件中,会显示OK和抓取的数...

2019-07-07 13:18:30 5397

原创 Spark SQL 读写 elasticsearch

1、需要的maven依赖org.elasticsearchelasticsearch-hadoop2.2.0-m12、配置将下载的elasticsearch-hadoop包放置到$SPARK_HOME/lib/下3数据写入esvim /home/admin/people.txt,增加如下测试内容:liu,sun,20li,si,30wang,wu,40li,bai,100...

2019-07-04 14:13:48 1556

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除