大数据开发
文章平均质量分 58
笔墨新城
stay hungry stay foolish(饥渴求知,虚怀若愚)
展开
-
Hadoop笔记
1. Hadoop 的集群搭建https://dr34m.gitee.io/2022/01/newpost-28/原创 2022-05-04 10:22:52 · 681 阅读 · 0 评论 -
Hadoop 集群搭建
前言初衷搭建hadoop 集群服务与flink任务运行。版本: CentOS7 Hadoop3.2.2 JDK1.8搭建hadoop集群采用3台机器 设置 ip和机器名vi /etc/hosts10.188.120.101 hadoop-110.188.120.102 hadoop-210.188.120.103 hadoop-31.免密登录3台机器上都执行如下命令ssh-keygen -t rsa执行命令后一直Enter即可!因为我现在用的是root账户,所以秘钥文件保存到原创 2022-03-17 17:02:08 · 2114 阅读 · 1 评论 -
数仓分层设计初步
数仓分层1.ODS、DWD、DWM、DWS、ADS 的含义网上找的两张概念图如下:2.数仓分层设计3、为什么要分层我们对数据进行分层的一个主要原因就是希望在管理数据的时候,能对数据有一个更加清晰的掌控,详细来讲,主要有下面几个原因:清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。数据血缘追踪:简单来讲可以这样理解,我们最终给业务诚信的是一能直接使用的张业务表,但是它的来源有很多,如果有一张来源表出问题了,我们希望能够快速准确地定位到问题,并清楚它的原创 2022-02-21 10:06:36 · 194 阅读 · 0 评论 -
Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
启动hive 后,查询 show databases; 报错如下:这个异常信息的原因是:Hive的metadata服务未开启导致的。解决办法:进入到Hive的bin目录下,键入命令: ./hive --service metastore &hive的metastore是干嘛的?作用是什么?Metastore作用:客户端连接metastore服务,metastore再去连接MySQL数据库来存取元数据。有了metastore服务,就可以有多个客户端同时连接,而且这些客户端不需要原创 2022-02-15 10:27:22 · 9942 阅读 · 1 评论 -
sqoop java.lang.Exception: java.lang.ClassNotFoundException: Class xxx(表名) not found
sqoop 执行如下./sqoop import \--connect jdbc:mysql://10.188.120.201:3306/fl \--username root \--password fl606123 \--table bond_code \--target-dir /sqoop \--delete-target-dir \--fields-terminated-by '\t'报错信息如下:报错原因:class未找到是因为map是本地方式运行,生成的jar包在/t原创 2022-02-15 09:33:46 · 886 阅读 · 0 评论 -
sqoop的安装和使用
版本说明 目前 sqoop最稳定版本是 1.4.7sqoop1.4.7兼容hadoop2.6以上所有版本下载 sqoophttps://archive.apache.org/dist/sqoop/解压安装增加配置vi /etc/profileexport SPARK_HOME=/usr/local/work/sqoop/sqoop-1.4.7.bin__hadoop-2.6.0 export PATH=$PATH:$SPARK_HOME/bin保存 source /etc/profile原创 2022-02-14 16:47:12 · 1331 阅读 · 0 评论 -
hive 使用用load inpath导入数据时出现NULL原因解析
为甚会为null 呢?注意两点:建表的时候:这种建表方式 要求文件的数据格式 是 按照一个 tabe 键进行分割。建表语句分隔符是’\t’,’\t’代表的是tab符号。create table snapshot( id bigint, high_price double, low_price double, open_price double )row format delimited fields terminated by '\t';然后执行原创 2022-02-10 17:32:16 · 2321 阅读 · 0 评论 -
java通过jdbc连接hive
版本说明hadoop 3.2.2hive 版本 3.1.2安装好hive 之后,hive默认的用户名和密码都是空的,所以需要我们设置用户名和密码。参考网上的,按照自定义的方式设置hive 的用户名和密码。1.首先要打一个jar 包,我这里已经打好了,需要可以去下载。2.也可以自己通过代码编译自行打包;package com.quant.flowcalculation.flinkapi.etl.hive;import java.sql.Connection;import java.sql.原创 2022-02-10 16:21:00 · 2929 阅读 · 1 评论 -
Kibana部署单机Centos7
###/1.Kibana是什么?Kibana是一个开源的分析与可视化平台,设计出来用于和Elasticsearch一起使用的。你可以用kibana搜索、查看存放在Elasticsearch中的数据。Kibana与Elasticsearch的交互方式是各种不同的图表、表格、地图等,直观的展示数据,从而达到高级的数据分析与可视化的目的。Elasticsearch、Logstash和Kibana这三个技术就是我们常说的ELK技术栈,可以说这三个技术的组合是大数据领域中一个很巧妙的设计。一种很典型的MVC思想,原创 2021-12-02 19:04:01 · 387 阅读 · 0 评论 -
Elasticsearch安装Centos7
前言1.下载 wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.15.2-linux-x86_64.tar.gz2、创建一个用户,elasticsearch 启动不能使用rootUseradd esPasswd es3、修改配置cd /usr/local/work/elasticsearch/elasticsearch-7.15.2/configvi elasticsearch.yml添原创 2021-12-02 17:01:32 · 593 阅读 · 1 评论 -
com.mysql.jdbc.exceptions.jdbc4.MySQLNonTransientConnectionException: Could not create connection to
com.mysql.jdbc.exceptions.jdbc4.MySQLNonTransientConnectionException: Could not create connection to database server.原因:因为数据库版本太高了而对应的驱动器太低了解决办法:进入到datax/plugin/writer/mysqlwriter/libs把原来低版本的删除,换成mysql-connector-java-8.0.20.jar 即可。...原创 2021-12-02 16:39:07 · 871 阅读 · 0 评论 -
Hive安装和使用 centos7
前言说明安装hive之前,系统已经安装好了 java,hadoop,mysql。版本说明java jdk1.8haoop 3.2.2hive 3.1.2目前hive官网是支持hadoop3.x 版本的,hive 版本要3.x。不然安装没法使用。hive的安装模式有2种,一种是使用自带的derby数据库,另一种是使用mysql作为元数据库。derby方式一般没人用,因为它是单用户模式。我这里主要讲解mysql方式。hive仅仅是一个客户端工具,不存在集群概念,因此安装的时候无需每台机器安装,原创 2021-10-28 19:56:41 · 1799 阅读 · 0 评论 -
DataX使用
1.基本用法生成job.json的示例文件cd {YOUR_DATAX_HOME}/binpython datax.py -r mysqlreader -w postgresqlwriterDataX执行的json文件解析{ job: //最外侧,任务 setting:{ //设置 speed:{ //速度 channel:3 //指定用几个子线程去跑这个任务,线程越多,速度越快 content:{ //内容 reader:{ //原创 2021-09-07 17:19:41 · 336 阅读 · 0 评论 -
DataX 3.0 安装和使用
一、DataX3.0概述:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz1、DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。1.设计理念为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一原创 2021-09-07 15:51:26 · 1076 阅读 · 0 评论 -
Hadoop 停止和启动命令总结
start-all.sh启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTracker、 TaskTrackstop-all.sh停止所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTracker、 TaskTrackstart-dfs.sh启动Hadoop HDFS守护进程NameNode、SecondaryNameNode和DataNodestop-dfs.原创 2021-08-30 11:26:50 · 2180 阅读 · 0 评论 -
时空时序数据库 TSDB的用法
tsdb 时空时序数据库 中的 几个关键词mertic: mertic 类似 关系型数据库 的一张 表名。fields 就是 其中 的字段 类似于 column 字段。tags : 是 能作为查询tsdb 的字段。 设置成tags 的 是固定不变化的,维度查询的字段。至于 说 为什么tags 这样设定。 下边引出一个 时间线的概念。tsdb 的中时间线的概念点击看详情从图中可以看出...原创 2020-03-22 15:50:01 · 2473 阅读 · 0 评论 -
阿里时空时序数据库TSDB用法总结
tsdb查询 tsdb 中 tags,如果查询不传任何值,查询的时候就只有 mertic 和开始时间 、结束时间、对这个mertic 的指标数据 做 sum,返回的是这个mertic 下的 所有 tags 维度下的结果集。降采样参见官方文档。...原创 2019-12-16 16:19:12 · 1313 阅读 · 0 评论 -
Hadoop单机版环境部署
前言Hadoop 部署1. 环境 centos7 + Java8 + hadoop3.2.2运行需要Java 环境依赖,我之前已经配置过了。这里简单说下。#这里 配置java的环境 还要配置 Hadoop的环境vi /etc/profile#java environmentexport JAVA_HOME=/usr/local/java/jdk1.8.0_291export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.ja原创 2021-06-08 09:48:48 · 1933 阅读 · 1 评论 -
TDH和CDH的简介和对比
前言hadoop是一个开源项目,所以很多公司在这个基础进行商业化,下面简单介绍下应用比较广泛的TDH和CDH两个版本。【TDH】TDH:Transwarp Data Hub1 Transwarp Inceptor简介TranswarpInceptor是星环科技推出的用于数据仓库和交互式分析的大数据平台软件,它基于Hadoop和Spark技术平台打造,加上自主开发的创新功能组件,有效的解决了企业级大数据数据处理和分析的各种技术难题,帮助企业快速的构建和推广数据业务。TranswarpIncept转载 2021-04-20 16:58:52 · 5781 阅读 · 0 评论 -
什么是CDH?
什么是CDH?CDH版本衍化hadoop是一个开源项目,所以很多公司在这个基础进行商业化,Cloudera对hadoop做了相应的改变。Cloudera公司的发行版,我们将该版本成为CDH(Cloudera Distribution Hadoop)。截止目前为止,CDH共有5个版本,其中,前两个已经不再更新,最近的两个,分别是CDH4和Apache Hadoop2.0.0版本基础上演化而来的。CDH5,他们每隔一段时间便会更新一次。Cloudera以patch lever划分小版本,比如patch l原创 2021-04-20 13:41:07 · 2461 阅读 · 0 评论 -
大数据文档总结
tsdb 的使用https://help.aliyun.com/document_detail/107573.html?spm=a2c4g.11186623.6.655.325945d13HUduYtsdb的介绍https://help.aliyun.com/document_detail/55709.html?spm=a2c4g.11186623.2.10.50257745lPxvX6...原创 2020-03-22 15:14:58 · 89 阅读 · 0 评论