大数据
文章平均质量分 55
Hadoop,Hive,Spark,Hbase,Redis,MongoDB以及相关大数据技术,
坤坤不爱吃鱼
努力做不会写代码的程序猿
展开
-
离线数仓-伪分布虚拟机 (所有组件部署完成,全流程运行成功)(数仓4.0-2.0,CDH)
尚硅谷数仓虚拟机镜像博主通过学习尚硅谷数仓项目,将部署好的数仓虚拟机打包成ovf文件,由于博主电脑内存较小,博主使用了伪分布式集群搭建,全流程运行成功。分享虚拟机镜像文件给予大家学习。搭建数仓只需一台虚拟机,且最低配置(内存:3G,磁盘:20G,CUP:1,Linux最小化安装)导入镜像的前提设置记得跟博主设置一样的IP不然可能会出现集群无法使用修改虚拟机IP根据下图参考修改镜像ovf文件的导入VMware导入ova/ovf虚拟机文件镜像ovf下载(将下载的所有文件,放在同一个文件夹下)原创 2021-11-28 08:44:18 · 13073 阅读 · 78 评论 -
Hbase的Rowkey设计
Hbase的Rowkey设计原创 2023-12-13 23:01:16 · 929 阅读 · 0 评论 -
Canal配置多个实例以及将Mysql指定表的binlog导入指定的Kafka的Topic
Canal配置多个实例以及将Mysql指定表的binlog导入指定的Kafka的Topic原创 2022-12-10 23:11:51 · 1790 阅读 · 0 评论 -
Hive工作—学习笔记
Hive创建表指定分隔符create table tablename(......) row format delimited fields terminated by '\t' # 指定分隔符stored as textfile # 指定类型location '/hdfs/data' # 指定文件地址create database db location '/db';插入数据INSERT INTO TABLE tab1 select * from tab2;INSERT OVERW原创 2022-04-06 20:25:43 · 1643 阅读 · 0 评论 -
Hadoop工作—学习笔记
Hadoop指令# 查看文件大小hadoop fs -ls -du -s -h 目录# 查看文件,去头部hadoop fs -text /data/hello.csv| headHadoop介绍# HDFS (分布式文件系统)# NameNode: 数据都存放在n(文件的元数据)# DataNode:数据具体的存放位置(存储文件块数据)# SeconaryNameNode:每隔一段时间对NameNode元数据备份# Yarn (Hadoop的资源管理器 CPU + 内存)#原创 2022-04-06 20:24:10 · 1492 阅读 · 0 评论 -
Hive实战篇
Hive实战和调优1.数据一致性问题对与多次修改以及只追加记录的数据的表,如何保证一致性:idnamesextimes_tamp1rootfemale2022-04-04 13:24:002hadoopfemale2022-04-04 13:24:301flinkmale2022-04-04 13:25:001hivemale2022-04-04 13:26:00通过开窗,排名,取最新的时间戳的数据,得到idname原创 2022-04-06 13:51:47 · 1649 阅读 · 0 评论 -
Flink 实时数仓伪分布虚拟机 (所有组件部署完成)
Flink 实时数仓伪分布虚拟机 (所有组件部署完成)—— 镜像下载Flink实时数仓架构虚拟机部署流程参考离线数仓镜像导入虚拟机成功后,记得修改虚拟机的内存和CPU视频地址Flink实时数据仓库部署好的虚拟机镜像下载百度网盘链接验证码:jbk8虚拟机描述(账号密码)Flink实时数仓系统:centos7.5主机名:flinkIP:192.168.88.109Linux:root:rootMysql:root:000000 maxwell:000000 canal:0000原创 2022-03-30 14:42:48 · 2604 阅读 · 11 评论 -
Flink同步Mysql数据到Hive(不开启Binlog)
Flink同步Mysql数据到Hive(不开启Binlog)方式一:自定义Source和自定义Sink方式二:FlinkSQL使用JDBC和HiveCatalog方式三:Flink原创 2022-03-05 20:09:22 · 3968 阅读 · 0 评论 -
FlinkSql连接Mysql出现com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failur
FlinkSql连接Mysql出现com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failure.The last packet successfully received from the server was 23 milliseconds ago. The last packet sent successfully to the server was 15 milliseconds ago.原创 2022-02-21 10:18:46 · 3071 阅读 · 4 评论 -
Flink提交jar(带依赖)出现找不到类NoClassDefFoundError+ClassNotFoundException、类冲突NoMatching.....,的解决办法
Flink提交jar(带依赖)出现找不到类NoClassDefFoundError+ClassNotFoundException、类冲突NoMatching…,的解决办法博主结合以下文章进行了总结官方文档Flink官方文档阿里云开发者社区Datastream 开发打包问题阿里云云栖号CSDN博客Datastream 开发打包问题Flink程序打包,要遵顼以下要求Hadoop依赖不打包。使用Table API 带多个flink-connector-xxx.jar,需要自原创 2022-02-19 23:41:36 · 8220 阅读 · 0 评论 -
Flink1.12.1使用HiveCatalog(HIve3.1.2)出现java.lang.NoSuchMethodError: org.apache.hadoop.io.retry.RetryUt
Flink1.12.1使用HiveCatalog(HIve3.1.2)出现java.lang.NoSuchMethodError: org.apache.hadoop.io.retry.RetryUtils.getDefaultRetryPolicy(Lorg/apache/hadoop/conf/Configuration;Ljava/lang/Stringjava.lang.NoSuchMethodError: org.apache.hadoop.io.retry.RetryUtils.getDef原创 2022-02-19 19:43:11 · 2496 阅读 · 0 评论 -
Flink Web ui 提交运行打包jar带依赖(“xxxx.-jar-with-dependencies“)出现错误
Flink Web ui 提交运行打包jar带依赖出现错误Caused by: org.apache.flink.table.api.NoMatchingTableFactoryException: Could not find a suitable table factory for ‘org.apache.flink.table.factories.TableSourceFactory’ in the classpath. Reason: Required context properties mi原创 2022-02-18 11:32:07 · 2994 阅读 · 0 评论 -
Flink的Watermark简单理解
Flink的Watermark简单理解: 定义Watermark 是一种衡量 Event Time 进展的机制。Watermark 是用于处理乱序事件的,而正确的处理乱序事件,通常用 Watermark 机制结合 window 来实现。数据流中的 Watermark 用于表示 timestamp 小于 Watermark 的数据,都已经 到达了,因此,window 的执行也是由 Watermark 触发的。Watermark 可以理解成一个延迟触发机制,我们可以设置 Watermark 的延时原创 2021-11-27 10:45:49 · 966 阅读 · 0 评论 -
Linux搭建Hadoop集群(fedora,hadoop2.7.1)
# linux与Linux虚拟机,Hadoop集群## 前面是关于Linux虚拟如何修改ip,并让Linux能能在同一局域网下ping到Linux虚拟机 。## Hadoop集群配置在下面↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓## Linux虚拟机改ip原创 2019-11-16 15:45:49 · 1131 阅读 · 0 评论 -
Linux安装Kafka(单机)不使用自带的Zookeeper
Linux安装Kafka(单机)不使用自带的ZookeeperZookeeper(单机)安装下载wget -P /opt/ https://mirrors.huaweicloud.com/apache/zookeeper/zookeeper-3.4.10/zookeeper-3.4.10.tar.gz解压tar -zxvf zookeeper-3.4.10.tar.gz重命名mv zookeeper-3.4.10 zookeeper修改zoo.cfg复制文件cp /opt/zook原创 2020-12-08 20:53:19 · 2491 阅读 · 2 评论 -
Zabbix或Azkaban使用Outlook邮箱进行邮件通知的相关配置
Zabbix或Azkaban使用Outlook邮箱进行邮件通知的相关配置Zabbix配置,如下Azkaban的配置,如下mail.sender=xkt1011@outlook.commail.host= smtp.office365.commail.port=587mail.tls=truemail.user=xkt1011@outlook.commail.password=Outlook邮箱密码...原创 2021-10-14 21:21:07 · 768 阅读 · 0 评论 -
Hive执行show databases出现RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata
FAILED: RuntimeException Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient原创 2022-02-11 16:31:03 · 2784 阅读 · 1 评论 -
Hive无法删除表,且无报错,一直卡死的解决方案
Hive无法删除表,且无报错,一直卡死的解决方案删除hive的表一直不动,无反应。然后查看lockshow locks mysql_hive;原来表被锁了,使用命令解锁unlock table mysql_hive;出现错误。解决办法进入元数据库Mysql,对应的源数据库。将HIVE_LOCKS表中的数据全部删除就可以了然后删除hive中的表...原创 2022-02-10 11:41:57 · 1872 阅读 · 0 评论 -
Kafka创建Topic出现replication factor: 2 larger than available brokers: 0 减少replication factor还是出现错误的解决办法
Kafka创建Topic出现replication factor: 2 larger than available brokers: 0 减少replication factor还是出现错误的解决办法kafka-topics.sh --zookeeper hbase:2181 --create --topic ct --partitions 3 --replication-factor 2[root@hbase kafka]# bin/kafka-topics.sh --zookeeper hbas原创 2022-01-15 21:58:28 · 9121 阅读 · 2 评论 -
JDBC连接Phoenix出现Exception in thread “main“ org.apache.phoenix.exception.PhoenixParserException: ERROR
JDBC连接Phoenix出现Exception in thread “main” org.apache.phoenix.exception.PhoenixParserException: ERRORog4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory).log4j:WARN Please initialize the log4j system pro原创 2022-01-03 21:40:58 · 2202 阅读 · 2 评论 -
Hbase2.0.5集成Phoenix5.0.0启动出现java.lang.NoSuchMethodError: com.ctc.wstx.stax.WstxInputFactory.createSR
Hbase2.0.5集成Phoenix5.0.0启动出现错误如下Exception in thread “main” java.lang.NoSuchMethodError: com.ctc.wstx.stax.WstxInputFactory.createSR(Lcom/ctc/wstx/api/ReaderConfig;Lcom/ctc/wstx/io/SystemId;Lcom/ctc/wstx/io/InputBootstrapper;ZZ)Lorg/codehaus/stax2/XMLStre原创 2022-01-03 21:18:37 · 1737 阅读 · 0 评论 -
Kafka启动成功且运行程序无报错,无法消费数据,即外网无法连接Kafka的消费者或生产者
Kafka启动成功且运行程序无报错,外网无法连接Kafka的消费者或生产者sparkStreaming消费kafka中的数据,得不到数据以及无报错信息,找错误如下首先检查一下,Kafka的消费者和Kafka生成者的Topic是否对应错误,以及其他错误开启kafka使用下面指令,看kafka是否有错误/opt/module/kafka/bin/kafka-server-start.sh /opt/module/kafka/config/server.properties注意程序控制台是否出原创 2021-12-11 17:00:21 · 4673 阅读 · 0 评论 -
CDH安装Hue连接Mysql出现Unexpected error. Unable to verify database connection
CDH安装Hue连接Mysql出现Unexpected error. Unable to verify database connectionUnexpected error. Unable to verify database connection解决办法原因是因为缺少/usr/lib64/mysql下缺少libmysqlclient_r.so.16这个文件下载下面这个文件libmysqlclient.so.18.0.0修改名称mv libmysqlclient.so.18.0.0 li原创 2021-10-18 20:08:45 · 509 阅读 · 0 评论 -
Solr创建collections出现 ERROR: create failed due to: Error loading config name for collection rss
Atlas0.8.4集成Solr5.2.2创建collections出现 ERROR: create failed due to: Error loading config name for collection rssERROR: create failed due to: Error loading config name for collection rss或ERROR: create failed due to: Error loading config name for collect原创 2021-09-28 21:50:59 · 728 阅读 · 0 评论 -
Hive出现FAILED: LockException [Error 10280]: Error communicating with the metastore
Hive出现FAILED: LockException [Error 10280]: Error communicating with the metastoreFAILED: LockException [Error 10280]: Error communicating with the metastore开启服务即可在hive的安装目录下,开启hive的服务bin/hive --service metastore如下然后再运行hive...原创 2021-09-23 09:19:25 · 1289 阅读 · 0 评论 -
Kylin启动出现Failed to find metadata store by url: kylin_metadata@hbase和InvocationTargetException等错误
标题Kylin启动出现Failed to find metadata store by url: kylin_metadata@hbase和InvocationTargetException等错误一次下面这3种错误错误1Exception in thread “main” java.lang.IllegalArgumentException: Failed to find metadata store by url: kylin_metadata@hbaseat org.apache.kylin.原创 2021-07-24 17:31:24 · 470 阅读 · 3 评论 -
Kylin出现org/apache/hadoop/hive/conf/HiveConf java.lang.NoClassDefFoundError: 最简单操作解决办法
Kylin出现org/apache/hadoop/hive/conf/HiveConf java.lang.NoClassDefFoundError: 最简单操作解决办法错误如下查看Kylin安装目录中的log文件部分如下2021-07-24 16:31:18,648 ERROR [http-bio-7070-exec-10] controller.TableController:190 : org/apache/hadoop/hive/conf/HiveConfjava.lang.NoClas原创 2021-07-24 17:06:21 · 684 阅读 · 0 评论 -
HBase启动成功,但不能访问Web页面
HBase启动成功,但不能访问Web页面Hadoop,Zookeeper,Hbase启动成功如下Hbase Shell 启动成功Zookeeper 启动成功Hbase安装目录下的conf文件下的hbase-site.xml配置的端口为16000<property> <name>hbase.master.port</name> <value>16000</value></property>解决办法是访问原创 2020-12-19 23:26:53 · 14790 阅读 · 2 评论 -
Spark的StreamingContext连接Kafka错误ERROR StreamingContext: Error starting the context, marking it as sto
Spark StreamingContext连接Kafka错误ERROR StreamingContext: Error starting the context, marking it as stoppedorg.apache.kafka.common.KafkaException: Failed to construct kafka consumerat org.apache.kafka.clients.consumer.KafkaConsumer.(KafkaConsumer.java:702原创 2020-12-18 10:19:09 · 1445 阅读 · 0 评论 -
Linux安装spark
Linux安装spark下载spark华为源下载或使用wgethttps://mirrors.huaweicloud.com/apache/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.7.tgz解压sparktar -zxvf spark-2.2.0-bin-hadoop2.7.tgz重命名mv spark-2.2.0-bin-hadoop2.7 spark配置环境变量vim .bashrc往里面添加export SPARK_HOME原创 2020-09-04 23:24:21 · 2418 阅读 · 2 评论 -
Linux安装Hadoop(伪分布)
Linux安装Hadoop(伪分布)####下载Hadoop华为源下载原创 2020-09-04 22:51:50 · 397 阅读 · 0 评论 -
jdbc连接hive报错:java.lang.ClassNotFoundException: org.apache.thrift.transport.TTransport
jdbc链接hive报错:java.lang.ClassNotFoundException: org.apache.thrift.transport.TTransport一般是jar没有导全或者jar出现错误。web项目,只导入hive-jdbc-xxx.jar的话,就只有一个只会有一个hive-jdbc-xxx.jar的jar。而maven项目,导入hive-jdbc-xxxx.jar...原创 2020-01-04 13:05:04 · 8335 阅读 · 2 评论