大数据_坤坤不爱吃鱼的博客-CSDN博客

大数据

关注

文章平均质量分 55

Hadoop，Hive，Spark，Hbase，Redis,MongoDB以及相关大数据技术,

关注数：文章数：32 文章阅读量：108563 文章收藏量：267

作者: 坤坤不爱吃鱼

努力做不会写代码的程序猿

展开

离线数仓-伪分布虚拟机 (所有组件部署完成，全流程运行成功）（数仓4.0-2.0，CDH）

尚硅谷数仓虚拟机镜像博主通过学习尚硅谷数仓项目，将部署好的数仓虚拟机打包成ovf文件，由于博主电脑内存较小，博主使用了伪分布式集群搭建，全流程运行成功。分享虚拟机镜像文件给予大家学习。搭建数仓只需一台虚拟机，且最低配置（内存：3G,磁盘：20G，CUP：1，Linux最小化安装）导入镜像的前提设置记得跟博主设置一样的IP不然可能会出现集群无法使用修改虚拟机IP根据下图参考修改镜像ovf文件的导入VMware导入ova/ovf虚拟机文件镜像ovf下载（将下载的所有文件，放在同一个文件夹下）

原创 2021-11-28 08:44:18 · 13368 阅读 · 77 评论
Hbase的Rowkey设计

Hbase的Rowkey设计

原创 2023-12-13 23:01:16 · 1003 阅读 · 0 评论
Canal配置多个实例以及将Mysql指定表的binlog导入指定的Kafka的Topic

Canal配置多个实例以及将Mysql指定表的binlog导入指定的Kafka的Topic

原创 2022-12-10 23:11:51 · 1864 阅读 · 0 评论
Hive工作—学习笔记

Hive创建表指定分隔符create table tablename(......) row format delimited fields terminated by '\t' # 指定分隔符stored as textfile # 指定类型location '/hdfs/data' # 指定文件地址create database db location '/db';插入数据INSERT INTO TABLE tab1 select * from tab2;INSERT OVERW

原创 2022-04-06 20:25:43 · 1661 阅读 · 0 评论
Hadoop工作—学习笔记

Hadoop指令# 查看文件大小hadoop fs -ls -du -s -h 目录# 查看文件，去头部hadoop fs -text /data/hello.csv| headHadoop介绍# HDFS （分布式文件系统）# NameNode: 数据都存放在n（文件的元数据）# DataNode：数据具体的存放位置（存储文件块数据）# SeconaryNameNode:每隔一段时间对NameNode元数据备份# Yarn (Hadoop的资源管理器 CPU + 内存)#

原创 2022-04-06 20:24:10 · 1529 阅读 · 0 评论
Hive实战篇

Hive实战和调优1.数据一致性问题对与多次修改以及只追加记录的数据的表，如何保证一致性：idnamesextimes_tamp1rootfemale2022-04-04 13:24:002hadoopfemale2022-04-04 13:24:301flinkmale2022-04-04 13:25:001hivemale2022-04-04 13:26:00通过开窗，排名，取最新的时间戳的数据，得到idname

原创 2022-04-06 13:51:47 · 1678 阅读 · 0 评论
Flink 实时数仓伪分布虚拟机 (所有组件部署完成）

Flink 实时数仓伪分布虚拟机 (所有组件部署完成）—— 镜像下载Flink实时数仓架构虚拟机部署流程参考离线数仓镜像导入虚拟机成功后，记得修改虚拟机的内存和CPU视频地址Flink实时数据仓库部署好的虚拟机镜像下载百度网盘链接验证码：jbk8虚拟机描述（账号密码）Flink实时数仓系统：centos7.5主机名：flinkIP：192.168.88.109Linux：root：rootMysql：root:000000 maxwell:000000 canal:0000

原创 2022-03-30 14:42:48 · 2694 阅读 · 11 评论
Flink同步Mysql数据到Hive（不开启Binlog）

Flink同步Mysql数据到Hive（不开启Binlog）方式一：自定义Source和自定义Sink方式二：FlinkSQL使用JDBC和HiveCatalog方式三：Flink

原创 2022-03-05 20:09:22 · 4069 阅读 · 0 评论
FlinkSql连接Mysql出现com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failur

FlinkSql连接Mysql出现com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failure.The last packet successfully received from the server was 23 milliseconds ago. The last packet sent successfully to the server was 15 milliseconds ago.

原创 2022-02-21 10:18:46 · 3207 阅读 · 4 评论
Flink提交jar（带依赖）出现找不到类NoClassDefFoundError+ClassNotFoundException、类冲突NoMatching.....，的解决办法

Flink提交jar（带依赖）出现找不到类NoClassDefFoundError+ClassNotFoundException、类冲突NoMatching…，的解决办法博主结合以下文章进行了总结官方文档Flink官方文档阿里云开发者社区Datastream 开发打包问题阿里云云栖号CSDN博客Datastream 开发打包问题Flink程序打包，要遵顼以下要求Hadoop依赖不打包。使用Table API 带多个flink-connector-xxx.jar，需要自

原创 2022-02-19 23:41:36 · 9217 阅读 · 0 评论
Flink1.12.1使用HiveCatalog(HIve3.1.2)出现java.lang.NoSuchMethodError: org.apache.hadoop.io.retry.RetryUt

Flink1.12.1使用HiveCatalog(HIve3.1.2)出现java.lang.NoSuchMethodError: org.apache.hadoop.io.retry.RetryUtils.getDefaultRetryPolicy(Lorg/apache/hadoop/conf/Configuration;Ljava/lang/Stringjava.lang.NoSuchMethodError: org.apache.hadoop.io.retry.RetryUtils.getDef

原创 2022-02-19 19:43:11 · 2601 阅读 · 0 评论
Flink Web ui 提交运行打包jar带依赖（“xxxx.-jar-with-dependencies“）出现错误

Flink Web ui 提交运行打包jar带依赖出现错误Caused by: org.apache.flink.table.api.NoMatchingTableFactoryException: Could not find a suitable table factory for ‘org.apache.flink.table.factories.TableSourceFactory’ in the classpath. Reason: Required context properties mi

原创 2022-02-18 11:32:07 · 3092 阅读 · 0 评论
Hive执行show databases出现RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata

FAILED: RuntimeException Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

原创 2022-02-11 16:31:03 · 2827 阅读 · 1 评论
Hive无法删除表，且无报错，一直卡死的解决方案

Hive无法删除表，且无报错，一直卡死的解决方案删除hive的表一直不动，无反应。然后查看lockshow locks mysql_hive;原来表被锁了，使用命令解锁unlock table mysql_hive;出现错误。解决办法进入元数据库Mysql，对应的源数据库。将HIVE_LOCKS表中的数据全部删除就可以了然后删除hive中的表...

原创 2022-02-10 11:41:57 · 2034 阅读 · 0 评论
Kafka创建Topic出现replication factor: 2 larger than available brokers: 0 减少replication factor还是出现错误的解决办法

Kafka创建Topic出现replication factor: 2 larger than available brokers: 0 减少replication factor还是出现错误的解决办法kafka-topics.sh --zookeeper hbase:2181 --create --topic ct --partitions 3 --replication-factor 2[root@hbase kafka]# bin/kafka-topics.sh --zookeeper hbas

原创 2022-01-15 21:58:28 · 9714 阅读 · 2 评论
JDBC连接Phoenix出现Exception in thread “main“ org.apache.phoenix.exception.PhoenixParserException: ERROR

JDBC连接Phoenix出现Exception in thread “main” org.apache.phoenix.exception.PhoenixParserException: ERRORog4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory).log4j:WARN Please initialize the log4j system pro

原创 2022-01-03 21:40:58 · 2243 阅读 · 2 评论
Hbase2.0.5集成Phoenix5.0.0启动出现java.lang.NoSuchMethodError: com.ctc.wstx.stax.WstxInputFactory.createSR

Hbase2.0.5集成Phoenix5.0.0启动出现错误如下Exception in thread “main” java.lang.NoSuchMethodError: com.ctc.wstx.stax.WstxInputFactory.createSR(Lcom/ctc/wstx/api/ReaderConfig;Lcom/ctc/wstx/io/SystemId;Lcom/ctc/wstx/io/InputBootstrapper;ZZ)Lorg/codehaus/stax2/XMLStre

原创 2022-01-03 21:18:37 · 1780 阅读 · 0 评论
Kafka启动成功且运行程序无报错，无法消费数据，即外网无法连接Kafka的消费者或生产者

Kafka启动成功且运行程序无报错，外网无法连接Kafka的消费者或生产者sparkStreaming消费kafka中的数据，得不到数据以及无报错信息，找错误如下首先检查一下，Kafka的消费者和Kafka生成者的Topic是否对应错误，以及其他错误开启kafka使用下面指令，看kafka是否有错误/opt/module/kafka/bin/kafka-server-start.sh /opt/module/kafka/config/server.properties注意程序控制台是否出

原创 2021-12-11 17:00:21 · 4754 阅读 · 0 评论
Flink的Watermark简单理解

Flink的Watermark简单理解: 定义Watermark 是一种衡量 Event Time 进展的机制。Watermark 是用于处理乱序事件的，而正确的处理乱序事件，通常用 Watermark 机制结合 window 来实现。数据流中的 Watermark 用于表示 timestamp 小于 Watermark 的数据，都已经到达了，因此，window 的执行也是由 Watermark 触发的。Watermark 可以理解成一个延迟触发机制，我们可以设置 Watermark 的延时

原创 2021-11-27 10:45:49 · 1013 阅读 · 0 评论
CDH安装Hue连接Mysql出现Unexpected error. Unable to verify database connection

CDH安装Hue连接Mysql出现Unexpected error. Unable to verify database connectionUnexpected error. Unable to verify database connection解决办法原因是因为缺少/usr/lib64/mysql下缺少libmysqlclient_r.so.16这个文件下载下面这个文件libmysqlclient.so.18.0.0修改名称mv libmysqlclient.so.18.0.0 li

原创 2021-10-18 20:08:45 · 558 阅读 · 0 评论
Zabbix或Azkaban使用Outlook邮箱进行邮件通知的相关配置

Zabbix或Azkaban使用Outlook邮箱进行邮件通知的相关配置Zabbix配置，如下Azkaban的配置，如下mail.sender=xkt1011@outlook.commail.host= smtp.office365.commail.port=587mail.tls=truemail.user=xkt1011@outlook.commail.password=Outlook邮箱密码...

原创 2021-10-14 21:21:07 · 893 阅读 · 0 评论
Solr创建collections出现 ERROR: create failed due to: Error loading config name for collection rss

Atlas0.8.4集成Solr5.2.2创建collections出现 ERROR: create failed due to: Error loading config name for collection rssERROR: create failed due to: Error loading config name for collection rss或ERROR: create failed due to: Error loading config name for collect

原创 2021-09-28 21:50:59 · 803 阅读 · 0 评论
Hive出现FAILED: LockException [Error 10280]: Error communicating with the metastore

Hive出现FAILED: LockException [Error 10280]: Error communicating with the metastoreFAILED: LockException [Error 10280]: Error communicating with the metastore开启服务即可在hive的安装目录下，开启hive的服务bin/hive --service metastore如下然后再运行hive...

原创 2021-09-23 09:19:25 · 1406 阅读 · 0 评论
Kylin启动出现Failed to find metadata store by url: kylin_metadata@hbase和InvocationTargetException等错误

标题Kylin启动出现Failed to find metadata store by url: kylin_metadata@hbase和InvocationTargetException等错误一次下面这3种错误错误1Exception in thread “main” java.lang.IllegalArgumentException: Failed to find metadata store by url: kylin_metadata@hbaseat org.apache.kylin.

原创 2021-07-24 17:31:24 · 493 阅读 · 3 评论
Kylin出现org/apache/hadoop/hive/conf/HiveConf java.lang.NoClassDefFoundError: 最简单操作解决办法

Kylin出现org/apache/hadoop/hive/conf/HiveConf java.lang.NoClassDefFoundError: 最简单操作解决办法错误如下查看Kylin安装目录中的log文件部分如下2021-07-24 16:31:18,648 ERROR [http-bio-7070-exec-10] controller.TableController:190 : org/apache/hadoop/hive/conf/HiveConfjava.lang.NoClas

原创 2021-07-24 17:06:21 · 719 阅读 · 0 评论
HBase启动成功，但不能访问Web页面

HBase启动成功，但不能访问Web页面Hadoop，Zookeeper，Hbase启动成功如下Hbase Shell 启动成功Zookeeper 启动成功Hbase安装目录下的conf文件下的hbase-site.xml配置的端口为16000<property> <name>hbase.master.port</name> <value>16000</value></property>解决办法是访问

原创 2020-12-19 23:26:53 · 16316 阅读 · 2 评论
Spark的StreamingContext连接Kafka错误ERROR StreamingContext: Error starting the context, marking it as sto

Spark StreamingContext连接Kafka错误ERROR StreamingContext: Error starting the context, marking it as stoppedorg.apache.kafka.common.KafkaException: Failed to construct kafka consumerat org.apache.kafka.clients.consumer.KafkaConsumer.(KafkaConsumer.java:702

原创 2020-12-18 10:19:09 · 1565 阅读 · 0 评论
Linux安装Kafka（单机）不使用自带的Zookeeper

Linux安装Kafka（单机）不使用自带的ZookeeperZookeeper（单机）安装下载wget -P /opt/ https://mirrors.huaweicloud.com/apache/zookeeper/zookeeper-3.4.10/zookeeper-3.4.10.tar.gz解压tar -zxvf zookeeper-3.4.10.tar.gz重命名mv zookeeper-3.4.10 zookeeper修改zoo.cfg复制文件cp /opt/zook

原创 2020-12-08 20:53:19 · 2669 阅读 · 2 评论
Linux安装spark

Linux安装spark下载spark华为源下载或使用wgethttps://mirrors.huaweicloud.com/apache/spark/spark-2.2.0/spark-2.2.0-bin-hadoop2.7.tgz解压sparktar -zxvf spark-2.2.0-bin-hadoop2.7.tgz重命名mv spark-2.2.0-bin-hadoop2.7 spark配置环境变量vim .bashrc往里面添加export SPARK_HOME

原创 2020-09-04 23:24:21 · 2593 阅读 · 2 评论
Linux安装Hadoop（伪分布）

Linux安装Hadoop（伪分布）####下载Hadoop华为源下载

原创 2020-09-04 22:51:50 · 413 阅读 · 0 评论
jdbc连接hive报错：java.lang.ClassNotFoundException: org.apache.thrift.transport.TTransport

jdbc链接hive报错：java.lang.ClassNotFoundException: org.apache.thrift.transport.TTransport一般是jar没有导全或者jar出现错误。web项目，只导入hive-jdbc-xxx.jar的话，就只有一个只会有一个hive-jdbc-xxx.jar的jar。而maven项目，导入hive-jdbc-xxxx.jar...

原创 2020-01-04 13:05:04 · 8621 阅读 · 2 评论
Linux搭建Hadoop集群（fedora，hadoop2.7.1）

# linux与Linux虚拟机，Hadoop集群## 前面是关于Linux虚拟如何修改ip，并让Linux能能在同一局域网下ping到Linux虚拟机。## Hadoop集群配置在下面↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓## Linux虚拟机改ip

原创 2019-11-16 15:45:49 · 1168 阅读 · 0 评论

大数据

作者: 坤坤不爱吃鱼

离线数仓-伪分布虚拟机 (所有组件部署完成，全流程运行成功）（数仓4.0-2.0，CDH）

Hbase的Rowkey设计

Canal配置多个实例以及将Mysql指定表的binlog导入指定的Kafka的Topic

Hive工作—学习笔记

Hadoop工作—学习笔记

Hive实战篇

Flink 实时数仓伪分布虚拟机 (所有组件部署完成）

Flink同步Mysql数据到Hive（不开启Binlog）

FlinkSql连接Mysql出现com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failur

Flink提交jar（带依赖）出现找不到类NoClassDefFoundError+ClassNotFoundException、类冲突NoMatching.....，的解决办法

Flink1.12.1使用HiveCatalog(HIve3.1.2)出现java.lang.NoSuchMethodError: org.apache.hadoop.io.retry.RetryUt

Flink Web ui 提交运行打包jar带依赖（“xxxx.-jar-with-dependencies“）出现错误

Hive执行show databases出现RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata

Hive无法删除表，且无报错，一直卡死的解决方案

Kafka创建Topic出现replication factor: 2 larger than available brokers: 0 减少replication factor还是出现错误的解决办法

JDBC连接Phoenix出现Exception in thread “main“ org.apache.phoenix.exception.PhoenixParserException: ERROR

Hbase2.0.5集成Phoenix5.0.0启动出现java.lang.NoSuchMethodError: com.ctc.wstx.stax.WstxInputFactory.createSR

Kafka启动成功且运行程序无报错，无法消费数据，即外网无法连接Kafka的消费者或生产者

Flink的Watermark简单理解

CDH安装Hue连接Mysql出现Unexpected error. Unable to verify database connection

Zabbix或Azkaban使用Outlook邮箱进行邮件通知的相关配置

Solr创建collections出现 ERROR: create failed due to: Error loading config name for collection rss

Hive出现FAILED: LockException [Error 10280]: Error communicating with the metastore

Kylin启动出现Failed to find metadata store by url: kylin_metadata@hbase和InvocationTargetException等错误

Kylin出现org/apache/hadoop/hive/conf/HiveConf java.lang.NoClassDefFoundError: 最简单操作解决办法

HBase启动成功，但不能访问Web页面

Spark的StreamingContext连接Kafka错误ERROR StreamingContext: Error starting the context, marking it as sto

Linux安装Kafka（单机）不使用自带的Zookeeper

Linux安装spark

Linux安装Hadoop（伪分布）

jdbc连接hive报错：java.lang.ClassNotFoundException: org.apache.thrift.transport.TTransport

Linux搭建Hadoop集群（fedora，hadoop2.7.1）