小帅热爱难回头-CSDN博客

转载 Spark读写Phoenix

Phoenix是使用Java编写的一个开源项目，基于在HBase之上的一个SQL层，能让我们通过标准的JDBC API读写HBase，而不用Scan或者get的方式，其实底层是将SQL编译成原生的HBase scans进行查询。本文将通过Spark的方式来读写Phoenix，基于以下版本开发测试。 scala-version：2.11.8 spark-version：2.2.0...

2019-07-15 10:20:41 3458 1

转载 Hbase的RowKey的设计

对于关系型数据库，数据定位可以理解为“二维坐标”；但是hbase中需要四维来定位一个单元格，即[行健、列族、列限定符、时间戳]HBase中rowkey可以唯一标识一行记录，在HBase查询的时候，有以下几种方式：1、通过get方式，指定rowkey获取唯一一条记录2、通过scan方式，设置startRow和stopRow参数进行范围匹配3、全表扫描，即直接扫描整张表中所有行记录什么...

2019-07-09 14:59:19 168

原创 CDH上的Shell脚本————用于脚本调度做准备的

#!/bin/bashbindir=$(cd $(dirname 0);pwd)echo"bindir=0);pwd)echo "bindir=0);pwd)echo"bindir=bindir"day=date -d -1hour +%Y-%m-%dhour=date -d -1hour +%Hif [ $# -eq 2 ];thenecho “...

2019-07-09 11:12:57 562

转载 Oozie调度引擎

Oozie是一个管理Hadoop作业、可伸缩、可扩展、可靠的工作流调度系统，它内部定义了三种作业：工作流作业：由一系列动作构成的有向无环图（DAGs）协调器作业：按时间频率周期性触发Oozie工作流的作业3.Bundle作业：管理协调器作业一、首先示例提交HiveSQL脚本- 即时执行1.进入到hue界面，点击【Query】- 【Schedule】- 【WorkFlow】，编...

2019-07-08 15:05:41 316

原创 Spark的架构以及driver的理解

这里先主要理解spark运行在四种资源管理器下的模式上图为spark的架构图，spark的组件可以分为三个部分，driver、cluster Manager、worker(executor)standalone模式：standalone模式既独立模式，自带完整服务，可单独部署到一个集群中，无需依赖其他任何资源管理系统，只支持FIFO调度器。从一定程度上说，它是spark on yarn 和...

2019-07-05 10:39:23 4140 1

原创用spark streaming实时读取hdfs数据并写入elasticsearch中

1、写sqoop脚本将mysql数据定时导入到hdfs中，然后用spark streaming实时读取hdfs的数据，并把数据写入elasticsearch中2、代码：package com.bigdataimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDimport org.a...

2019-07-04 12:04:23 1395

学习网址：https://elasticstack.blog.csdn.net/article/details/102728604?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-4.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2

2020-10-23 11:47:35 129

原创 Git在Linux上的基础操作

Git的基础操作：管理本地仓库，关联远程仓库//初始化：git config --global user.name “name” //设置用户名git config --global user.email “email” //设置邮箱//将远程仓库复制到本地git clone url//将文件夹设置为git仓库git init//如果没有克隆仓库,不使用init,将已经建立好仓库，关联到远程github仓库git remote add origin <url.git>/

2020-08-25 15:35:16 164

原创 Python连接各种库的API在Pycharm中的安装

一、Pycharm(python的版本2.7)：安装pyhs2 (备注：pyhs2函数库是python用来连接hive数据仓库的)1、下载sasl：pip install sasl-0.2.1-cp27-cp27m-win_amd64.whl下载pyhs2: pip install pyhs2-0.6.0-py2.py3-none-any.whl那么他们的下载地址：https://w...

2020-04-10 03:10:19 1638

原创 hive的任务运行时报The maximum path component name limit的错误

mds_engine_wifi的任务运行hive时报错，改表是分区表，分区是dt,channel,apptoken运行报错的日志如下：Caused by: org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.protocol....

2020-02-27 21:43:38 1232

原创大数据任务脚本(二)

内容：#!/bin/bashif [ ! -n “$1” ] ;thendate=date -d today +%Y-%m-%delsedate=$1fiif [ ! -n "2"];thendate1=2" ] ;then date1=2"];thendate1=dateelsedate1=$2fito_date=date +%Y%m%d -d "$date +1...

2020-01-19 18:03:53 180

原创 Hive脚本执行时参数的传参

使用-hiveconf传参：测试脚本： -- test.sql select 'Start Testing ...'; select ${hiveconf:day}, '${hiveconf:url}'; select 'Test End!';命令行：hive -hiveconf day=20180716 -hiv...

2020-01-15 17:48:03 1381

原创 k8s集群搭建-学习使用

1、准备工作Docker 18.09.0kubeadm-1.14.0-0kubelet-1.14.0-0kubectl-1.14.0-0k8s.gcr.io/kube-apiserver:v1.14.0k8s.gcr.io/kube-controller-manager:v1.14.0k8s.gcr.io/kube-scheduler:v1....

2019-12-19 15:50:46 214

原创 Spark的JVM调优及优化方法

Spark调优相关的JVM调优，这个调优方法在开发中也很常见，他主要分为两种，一种是降低cache操作的内存占比，一种是调节executor堆外内存和降低连接等待时长。在此之前，我们先来了解一下 JVM的堆内存。堆内存存放我们创建的一些对象，有老年代和年轻代。理想情况下，老年代都是放一些生命周期很长的对象，数量应该是很少的，比如数据库连接池。我们在spark task执行算子函数（我们自己写的...

2019-11-14 22:53:07 204

原创对json格式的数据的解析

对于Json格式数据的解析，除了谷歌的Gson、阿里巴巴的fastjson之外，我们这里要介绍的也是一个强大的工具类：json4sjson4s在scala语言中对json格式的数据解析用得比较多。方法：package com.mhl.testimport org.json4s.JsonDSL._import org.json4s.jackson.JsonMethods._import ...

2019-08-05 11:12:35 408

原创 Spark读取Hdfs的数据批量导入MySQL

背景：一般情况下，我们在大数据使用中，我们习惯用Spark来做计算，用JAVA来JDBC MySQL库，随着Spark的成熟，Spark自己也有实现一套连接Mysql的方法。这里主要以Spark Core 来处理数据，然后用JDBC 来批量导入数据。工程：我们的数据工程通过flume收集nginx上数据，直接落地到Hdfs，然后用SparkCore 解析处理数据，JDBC批量入MySQL库。主...

2019-08-05 10:40:19 1155

原创在JAVA项目中主键id自动生成----------IdWorker(每一秒可以生成4000多个，都不重复)

maven依赖的jar包：com.baomidoumybatis-plus-boot-starter3.0.7.1所用的类：package com.mhl.utils;import java.lang.management.ManagementFactory;import java.net.InetAddress;import java.net.NetworkInterfac...

2019-07-30 12:43:48 2335

原创 linux系统中设置系统的时间开机自动同步服务器或者节点的时间

第一步：linux设置开机同步时间在/etc/init.d/下新建synchronized_date脚本，添加如下内容：#!/bin/bash#chkconfig: 345 63 37#chkconfig:345 63 37 (数字345是指在运行级别为3、4、5时启动；数字63是指启动的优先级；数字 37是指停止的优先级）/usr/sbin/ntpdate us.pool.ntp.o...

2019-07-27 17:36:17 759

转载 DataX介绍

一. DataX3.0概览DataX 是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。设计理念为了解决异构数据源同步问题，DataX将复杂的网状的同步链路变成了星型数据链路，DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候，只需要将...

2019-07-23 18:27:16 218

原创 Datax的json配置文件的问题

主要例子：eg 从Mysql库数据导入hbase中<以Mysql库中的表中的数据全量的导入hbase>：那么rowkey的设计就很重要至少要设计一个每次都会唯一的字段设计进去，这样得到的一条数据才是所有的。比如，我们有一个字段叫：“广告ID”,这个字段是广告类型的一个唯一标识，但是我mysql库的表里面的数据肯定是有全量的数据，也就是同一广告id可能出现多次，那么为了设计唯一的一...

2019-07-23 18:03:55 3437 1

原创 phoenix的客户端操作工具Squirrel

客户端工具Squirrel下载：https://www.cnblogs.com/laov/p/4137136.htmlHBase，可以用HBase shell进行操作，也可以用HBase Java api进行操作。HBase虽然是一个数据库，但是它的查询语句，很不太好用。要是能像使用Mysql等关系型数据库一样用sql语句操作HBase，那就很Perfect了。现有工具有很多Hiv...

2019-07-22 18:23:45 1299

原创 Phoenix和Hbase的一般FAQ问题

第一：建表问题：(1)：如果在phoenix中建表，那么表建好以后，它会自动映射到hbase库里面，即hbase库里面就有这个表了，如果像phoenix中的表插入数据，那么数据会自动在hbase库中映射表中插入数据。(2)：如果是先在hbase中建表，那么phoenix中是不存在这个相同的表的，因此要在phoenix中映射有hbase中这个相同的表，那么就必须在phoenix中创建相同的表，...

2019-07-19 16:29:14 812

原创利用datax数据同步工具将MySLQ的数据导入到Hbase数据库-----------全套流程

第一：MySQL数据库中的表的结构如下：DROP TABLE IF EXISTS mhl_device;CREATE TABLE mhl_device (0 id bigint(20) NOT NULL,1 update_time datetime DEFAULT NULL COMMENT ‘更新时间’,2 create_time datetime DEFAULT NULL COMMEN...

2019-07-18 15:13:54 1661 1

原创 crontab任务执行的环境

实际在大数据工作中，有的时候对于平台调度不熟的朋友，可能会选择使用crontab来调度那么在crontab的调度中我们经常会碰到这样的一个问题：有的时候手动执行shell脚本任务时能成功，但是crontab调度执行时失败，详细排查发现手动的执行环境和crontab不一样。在调度脚本上source当前账户的bash_profile配置，问题解决。crontab执行环境在/etc/crontab...

2019-07-18 14:30:16 501

原创利用datax数据同步工具的简单入门

hbase的版本：1.3 (依然可以导入)配置文件

2019-07-17 10:52:02 1025

转载数据预处理特征工程之库sklearn-pandas

熟悉数据分析行业，python 栈，基本都会使用numpy pandas sklearn ，使用sklearn 在做特征工程时，其操作对象是 numpy 的数组，而不是 pandas 的dataframe，但是长期以来我们多维数据承装的容器都是选择dataframe，其安全可靠便捷灵活轻巧等特性秒杀其他语言的任何容器。但是在对 dataframe做特征工程时，简单的使用pan...

2019-07-12 15:34:06 928 1

原创 Hive的开窗函数

1、sum()over(partition by …) (累加求和) select cookieid,create_time,pv, sum(pv) over(partition by cookieid order by createtime) as pv1, -- 默认为从起点到当前行 sum(pv) ov...

2019-07-12 09:48:36 241

原创 Spark在Windows本地读取Hdfs上的文件

Windows本地上，Spark读取Hdfs上文件：需要满足的条件：(1)需要访问hdfs的路径：即可以配置core-site.xml，hdfs-site.xml文件(2)设置访问hdfs上的用户： System.setProperty(“HADOOP_USER_NAME”,“hdfs”)（3）Spark程序中的Master设置在本地即：local条件(1)的core-site.xml文...

2019-07-10 14:46:39 2528

原创大数据的配置文件：Properties

package com.learning.bigdata.bigdataimport java.io.InputStreamimport java.util.Propertiesimport org.apache.commons.lang3.StringUtilsobject properties {def main(args: Array[String]): Unit = {//Pr...

2019-07-10 10:38:12 402

原创大数据中的Utils工具类的各种方法

大数据中的Utils工具类的各种方法参考：package com.learning.bigdata.utilsimport java.io.{FileInputStream, InputStream}import java.text.SimpleDateFormatimport java.util.{Calendar,Properties}import org.apache.common...

2019-07-10 10:34:45 831

原创大数据中对原始数据中的时间的解析

大数据中对原始数据中的时间的解析eg:[12/Sep/2018:23:33:53 +0800]package com.learning.bigdata.utils;import java.text.DateFormat;import java.text.SimpleDateFormat;import java.util.Date;import java.util.Locale;publ...

2019-07-10 10:29:04 489

原创 Hbase的基础Java代码操作

package com.learning.bigdata;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop...

2019-07-10 10:18:41 294

转载 ThreadLocal用于多线程并发

说明：面试官：讲讲你对ThreadLocal的一些理解。那么我们该怎么回答呢？？？？你也可以思考下，下面看看零度的思考；ThreadLocal用在什么地方？ThreadLocal一些细节！ThreadLocal的最佳实践！思考ThreadLocal用在什么地方？讨论ThreadLocal用在什么地方前，我们先明确下，如果仅仅就一个线程，那么都不用谈ThreadLocal的，Thre...

2019-07-10 10:12:10 484

转载为了追求极致的性能，Kafka掌控了这11项要领

Kafka在性能优化方面做了哪些举措，这个问题也是Kafka面试的时候的常见问题，面试官问你这个问题也不算刁难你。在网上也有很多相关的文章开讲解这个问题，比如之前各大公众号转载的“为什么Kafka这么快？”，这些文章我看了，写的不错，问题在于只是罗列了部分的要领，没有全部的详述出来。本文所罗列的要领会比你们网上搜寻到的都多，如果你在看完本篇文章之后，在面试的时候遇到相关问题，相信你一定能让面试官眼...

2019-07-10 09:42:19 107

转载 Hue+Oozie调度之Shell脚本的调度

1、先准备两个脚本：test1.shtest2.shsh test1.sh 2018-11-20 执行结果为：2、将脚本上传到hdfs3、hue上配置调度脚本新建一个workflow拖拉一个shell action选择需要执行的shell(此处是去hdfs上选择shell脚本，这里选择/test2.sh)配置shell执行过程中所有需要的文件(这个如果不配置，会报找...

2019-07-09 11:33:01 1975 1

转载 Hbase的基本Shell命令

一、启动habse分布式集群在集群的某个节点启动hbase集群的命令：start-hbase.sh二、进入hbase的客服端命令：hbase shell三、hbase基本shell命令：注意HBase Shell 中的回格键没用，要用【Ctrl+Backspace】，每个命令之后不需要分号(;)结束。HBase帮助命令：hbase(main):003:0> help ‘creat...

2019-07-09 10:18:54 2388

原创 Phoenix的Shell命令

1，进入(hbase01是主机名，2181是zookeeper的端口)sqlline.py hbase01:21812，退出（注意结尾不加分号）！quit3，查询所有表（注意结尾不加分号）！tables4，创建表（除了上面带感叹号的语句，其余语句都得加分号）（1）表名和列族名以及表名如果需要小写都得加双引号。create table “person” (“id” integer n...

2019-07-08 11:58:53 1317

转载 Phoenix的入门和操作

转自博客地址：https://yq.aliyun.com/articles/574090?spm=a2c4g.11186623.2.3.FuOIry简介：Phoenix是一个开源的HBASE SQL层。它不仅可以使用标准的JDBC API替代HBASE client API创建表，插入和查询HBASE，也支持二级索引、事物以及多种SQL层优化。此系列文章将会从Phoenix的语法和功能特性、...

2019-07-08 11:21:50 204

原创 Hive脚本以及用Hive脚本的Crontab任务调度

一、hive执行脚本1、hive -e “sql语句”会将查询的结果打印在控制台上。2、hive -e “sql语句” >> xxx >xxx如果是“>>xxx”会将查询的结果重定向到xxx文件中，会显示OK和抓取的数据条数，并且后续的日志都会追加在前一条日志后面。如果是“ >xxx”会将查询的结果重定向到xxx文件中，会显示OK和抓取的数...

2019-07-07 13:18:30 5397

原创 Spark SQL 读写 elasticsearch

1、需要的maven依赖org.elasticsearchelasticsearch-hadoop2.2.0-m12、配置将下载的elasticsearch-hadoop包放置到$SPARK_HOME/lib/下3数据写入esvim /home/admin/people.txt，增加如下测试内容：liu,sun,20li,si,30wang,wu,40li,bai,100...

2019-07-04 14:13:48 1556

空空如也

空空如也