jerrfy_w-CSDN博客

原创 Docker的常用命令

Docker的常用命令帮助命令docker versiondocker info 显示docker的系统信息包括镜像和容器数量docker 命令 --help镜像命令docker images可选项：Options: -a Show all images -q Only show image IDs[root@vm088141 ~]# docker images --allREPOSITORY TAG IMAGE ID

2021-12-07 15:29:12 1919

原创手把手教你安装Docker（详细）

Docker基本组成镜像容器仓库安装Docker环境准备linux环境# 系统环境[root@vm088141 ~]# cat /etc/os-release NAME="CentOS Linux"VERSION="7 (Core)"ID="centos"ID_LIKE="rhel fedora"VERSION_ID="7"PRETTY_NAME="CentOS Linux 7 (Core)"ANSI_COLOR="0;31"CPE_NAME="cpe:/o:ce

2021-12-07 15:22:50 2725

原创空间数据可视乎利器GeoPandas安装使用以及空间数据结合展示示例

安装geopandas按顺序执行pip install GDAL-3.0.3-cp37-cp37m-win_amd64.whl pip install Rtree-0.9.4-cp37-cp37m-win_amd64.whlpip install Fiona-1.8.13-cp37-cp37m-win_amd64.whlpip install Shapely-1.6.4.post2-cp37-cp37m-win_amd64.whlpip install pyproj-2.4.2.post1-c

2020-12-07 16:49:21 412

原创 python oracle数据抽取到mysql

python数据库连接方式请查看此文章：https://blog.csdn.net/wzj_wp/article/details/103287498一采取游标方式连接数据库思路：列表的循环读取插入，如果是通过其他运算生成的类似于可以循环的列表形式，也可以用此方式，比如爬取天气数据，每天进行循环遍历；比如pandas计算相关系数，每个维度生成一条相关系数import cx_Oracleim...

2020-11-03 10:51:53 485

原创 Python运行日志的留存

python定时任务运行过程的log留存# -*- coding: utf-8 -*-"""Created on Fri Jan 17 15:02:46 2020@author: wzj"""#log 测试import pandas as pdimport pymysqlimport tracebackimport loggingfrom logging.handlers...

2020-11-03 10:50:40 464

原创 Ranger升级版本初始化报错：SQLException : SQL state: HY000 java.sql.SQLException: Operation CREATE USER failed

SQLException : SQL state: HY000 java.sql.SQLException: Operation CREATE USER failed for ‘ranger’@‘localhost’ ErrorCode: 1396解决方案：

2020-10-15 17:27:26 575

原创 pyspark读取es

方式一：sqlcontextdef readEs(): conf = SparkConf().setAppName("es").setMaster("local[2]") sc = SparkContext(conf=conf) sqlContext = SQLContext(sc) df = sqlContext.read.format("org.elasticsearch.spark.sql") \ .option("es.nodes.wan.only"

2020-10-14 11:54:55 1585

原创 SparkStreaming Demo

配置官方提供依赖添加方式：<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.12</artifactId> <version>2.4.6</version> <scope>provided</scope></dependency>idea本地

2020-10-14 11:47:58 217

原创 Atlas 编译踩坑大全

我是把下面坑都踩了一遍之后，编译任何一个版本都畅通无阻1.[ERROR] Failed to execute goal org.apache.maven.plugins:maven-enforcer-plugin…rule…修改：pom中相关rule改为自己对应版本修改pom:oracleReleaseOracle Released Java Packsgeshttp://download.oracle.com/mavendefault删除maven配置文件中默认的仓库

2020-09-22 15:27:41 2283 12

原创 Atlas import-hive.sh元数据踩坑(二)

方案一：如果是集成CDH环境，首先检查/etc/hive/conf目录下是不是有atlas-application.properties文件，如果没有，从atlas路径下copy一份过去方案二：如果确认文件已经有了，导入还是报错，强行修改import-hive.sh文件,指定HIVE_CP=/etc/hive/conf，保存修改重新导入...

2020-09-22 15:18:51 1364 1

原创 Atlas 导入hive元数据踩坑(一)

[wzj@hadoop001 hook-bin]$ ./import-hive.sh Using Hive configuration directory [/home/wzj/app/hive/conf]Log file for import is /home/wzj/app/apache-atlas-sources-1.1.0/distro/apache-atlas-1.1.0/logs/import-hive.loglog4j:WARN No such property [maxFileSize

2020-09-08 11:21:46 1616 1

原创 Kafka常用命令

topic：主题partition:每个partition是一个有序的队列创建topic./kafka-topics.sh \--create \--zookeeper localhost:2182,localhost:2183,localhost:2184/kafka \--partitions 3 \--replication-factor 3 \--topic bigdata查看topic列表./kafka-topics.sh \--list \--zookeeper l.

2020-08-28 16:30:41 181

原创 SparkSQL(三)

http://spark.apache.org/docs/latest/sql-getting-started.htmlRDD转DataFrame/DataSet处理文本格式必备方式一：reflection(反射)// RDD转DataFrameimport org.apache.spark.sql.SparkSessionobject DataFrameRDDAPP { def main(args: Array[String]): Unit = { val spark = S

2020-08-28 16:29:09 172

原创 SparkSQL(二)

SparkCore编程模型是RDDSparkSQL编程模型是DataFrame/DataSetSparkSQL编程入口为SparkSessionselect 三种写法df.select(“column1”,“column2”)df.select(df(“column1”),df(“column2”))import spark.implicits._val frame = df.select($“column1”, $“column2”)filter 三种写法value是数值直接写数值，

2020-08-28 16:27:57 240

原创 SparkSQL(一)

http://spark.apache.org/docs/latest/sql-getting-started.htmlscala> val df = spark.read.json("file:///home/wzj/app/spark/examples/src/main/resources/people.json")df: org.apache.spark.sql.DataFrame = [age: bigint, name: string] scal

2020-08-28 16:27:09 249

原创 SparkStreaming Demo

配置官方提供依赖添加方式：<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.12</artifactId> <version>2.4.6</version> <scope>provided</scope></dependency>idea本地

2020-07-10 22:58:31 199

原创 spark-on-yarn jar包优化

spark-on-yarn jar包问题submit运行过程中会把spark的jar包上传到HDFS的/user/hadoop/.sparkStaging路径下面,运行完毕进行释放，上传的这个过程实际上比较耗费时间WARN yarn.Client: Neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploading libraries under SPARK_HOME.spark.yarn.jars和spar

2020-06-18 23:30:18 421

原创 Spark Core

Spark CoreRDD五大特性：A list of partitions：一系列的分区A function for computing each split：对每一个分片做计算A list of dependencies on otherOptionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)Optionally, a list of preferred locat

2020-06-18 23:24:41 187

原创 Scala 学习笔记

Scala(一)：Scala 运行在JVM之上，兼容javaScala 没有java中int double等这些原声数据类型，都是以大写开头的Int Double Float定义：val | var 名称[:数据类型] =xxxeg: val name:String = “wzj”Scala 中有类型推倒的功能所以数据类型可以省略eg: val name = “wzj”Float类型定义数值后面需要加fval b:Float = 1.1fLong类型数值后面需要加Lval b:Lo

2020-05-30 14:55:47 360

原创 Hive UDF

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDFUser-Defined Functions 场景：1.build-in函数满足不了我们的需求，所以我们需要扩展我们自己的函数2.RDBMS ==> HiveUDF/UDAF/UDTFUDF: one-to-one eg:进来一个出去一个subst...

2020-04-15 13:56:34 277

原创窗口函数

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+WindowingAndAnalyticswzj,20200201,1wzj,20200202,3wzj,20200203,5wzj,20200204,7wzj,20200205,9wzj,20200206,11wzj,20200207,13wzj,202...

2020-04-15 13:55:59 216

原创 Hive 行转列&列转行

行转列concat_ws:hive (wzj)> desc function extended concat_ws;OKtab_nameconcat_ws(separator, [string | array(string)]+) - returns the concatenation of the strings separated by the separator.Exa...

2020-04-15 13:55:25 1314

转载数据库索引原理

转载地址：https://zhuanlan.zhihu.com/p/23624390

2020-03-13 19:38:24 182

原创 Zookeeper 实现持续监听

zookeeper默认监听触发一次就结束，所以需要重新实现WatchedEvent中的process方法，核心就是对watcher的循环调用WatchedEvent包含两方面重要信息：与zk服务器连接的状态信息可以调用watchedEvent.getState()方法获取与zk服务器连接的状态信息，状态信息取值主要包括SyncConnected、Disconnected、Connect...

2020-03-12 19:54:40 1259 1

原创 Zookeeper API

Zookeeper API可以实现zookeeper客户端对节点的各种交互，所以我们只需要记住这一个zookeeper()入口即可，对每种方法提供了同步和异步两种方式同步：有返回值，且需要抛异常异步：无返回值，不需要关注异常，会通过返回状态码进行判断Result Code0 (ok) :接口调用成功-4 (ConnectionLoss) :客户端和服务端连接断开-110 (N...

2020-03-12 16:16:13 278

转载【转】log4j详细配置汇总

原文地址：http://www.codeceo.com/article/log4j-usage.html原文地址：https://blog.csdn.net/iteye_6480/article/details/82512288?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522158379607419724835813142%252...

2020-03-12 00:31:12 152

原创 Zookeeper 安装部署以及客户端使用

cdh中搜不到zookeeper的安装包，需要输入全路径即可下载下载地址：https://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh5.16.2.tar.gzstandalone模式解压：[wzj@hadoop001 software]$ tar -zxvf zookeeper-3.4.5-cdh5.16.2.tar.gz -C ...

2020-03-10 23:49:18 492

原创 Nginx 安装部署

参数文档：http://nginx.org/en/#basic_http_features官方部署文档：https://docs.nginx.com/nginx/admin-guide/installing-nginx/installing-nginx-open-source/下载地址：http://nginx.org/download/最新稳定版：https://nginx.org/dow...

2020-03-10 23:46:58 135

原创 Git 常用命令

工作协同中经常需要用到github或者gitlab,常用的git命令就一定要掌握了1.查看分支所有分支：git branch -a远程所有分支：git branch -r2.新建分支新建：it checkout -b 分支提交：git push origin 分支3.删除分支删除远程分支：git push origin --delete 分支名删除本地分支：git br...

2020-03-07 23:02:30 173

原创 Azkaban 安装部署&常见错误

Solo Server源码下载/解压3.81.0地址[wzj@hadoop001 software]$ tar -xzvf 3.81.0.tar.gz -C ~/app/[wzj@hadoop001 azkaban]$ lsaz-core az-flow-trigger-dependency-plugin az-intellij-style.xml azkaban-exe...

2020-02-20 23:07:31 1293 3

原创 Scala 安装&IDEA+Maven项目创建

下载地址:选择相应版本和安装包下载即可安装解压[wzj@hadoop001 app]$ tar -zxvf scala-2.11.8.tgz -C ~/app配置环境变量export SCALA_HOME=/home/wzj/app/scalaexport PATH=$SCALA_HOME/bin:$PATH生效sourceIDEA+Maven项目创建在线安装。。...

2020-02-19 00:10:31 191

原创 Flume安装和简单使用

Flume简介来自官网Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on s...

2020-02-14 00:05:49 197

原创 Python 报错整理

文件路径未转译SyntaxError: (unicode error) ‘unicodeescape’ codec can’t decode bytes in position 2-3: truncated \UXXXXXXXX escape文件路径中文件类型未定义ValueError: No engine for filetype: ‘’列表元素转化为字符串输出q = [‘a’,‘b...

2020-01-14 15:43:21 1236

原创 IDEA进行Hadoop-HDFS API编程报错:Failed to locate the winutils binary in the hadoop binary path

错误：ERROR Shell: Failed to locate the winutils binary in the hadoop binary pathjava.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. ```

2020-01-14 13:06:05 4061 1

原创数据仓库分层

数据仓库&数据集市数据仓库数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制简单来说就是一堆数据集合（log型和db型）的整合处理，，挖掘有效价值，提供决策支...

2020-01-10 10:44:15 918 1

原创日期维度表生成-Python

业务中经常需要去分析时间序列相关的数据，可能会用到年，月，日，小时，星期，节假日等等，尤其是在零售和电商行业中，可能需要分析日销售的高峰时段等等，所以能够有这样一张多维度细颗粒的时间表其实用起来是非常简便的，话不多说，直接贴代码import pandas as pdfrom datetime import datetime,timedeltafrom chinese_calendar imp...

2020-01-09 17:32:06 958

原创 Hive中⽂注释乱码--解决

my.cnf 文件配置切换mysql管理用户vi /etc/my.cnf [mysqld]之后添加如下内容[mysqld]init_connect='SET collation_connection = utf8_unicode_ci'init_connect='SET NAMES utf8'character-set-server=utf8collation-server=...

2020-01-02 14:59:50 180

原创日期时间函数

MySQL获取当前时间+时间：now(),sysdate()now()在执行开始就获取到时间，sysdate()动态的获取时间获取当前日期：curdate()获取当前时间：curtime()季度：quarter(date)年：year(date),月：month(date),日：day(date),周：week(date)一周第几天：dayofweek(date)1为星期...

2020-01-02 09:24:07 234

原创 Hive复杂数据类型

array类型建表并加载数据创建表时候指定字段为array类型 location array指定array中每个的分隔符COLLECTION ITEMS TERMINATED BY ‘,’hive (wzj)> create table hive_array( > name string, > loaction array&lt...

2019-12-30 13:43:14 234

原创 Sqoop 导入&导出

Sqoop 作用：数据从RDBMS和Hadoop之间进行导入导出操作底层就是使用MapReduce来实现的Map 只有MapReduce 没有Reduce导入: importRDBMS ==> Hadoop导出: exportHadoop ==> RDBMS参数帮助查看—》sqoop help[wzj@hadoop001 conf]$ sqoop help19...

2019-12-26 02:23:37 404

apache-atlas-2.0.0-server.tar.gz

空空如也