优优优优呐-CSDN博客

原创连接hadoop报错：Call From xxxx/169.254.17.210 to 192.168.10.10:9000 failed on connection exception:

我们只需要到core-site.xml文件中，开放9000端口，之后重启hadoop再查看端口信息。我们先在Linux系统上查看9000端口是否开放了。127.0.0.0 代表着只能本地访问。这个报错意思就是访问不到9000端口。

2023-03-30 18:54:07 586

原创 spark报错SparkException: Task not serializable

这种情况一般都是map或者flatmap中引用了外部变量/对象。我这里是因为map内引用了people对象。

2023-03-30 09:58:53 219

原创转成dataset报错：需要隐式编码器[xxxx]来将xxxx实例存储在数据集中

实现kryo序列化机制。

2023-03-30 09:37:41 118

原创 hive启动元数据服MetaException(message:org.apache.hadoop.conf.Configuration.getPassword(Ljava/lang/String；)

将hadoop-commin{版本号}.jar复制到hive的lib目录下。

2023-03-29 18:42:12 176

原创分库分表

其它维度比如时间，但是不推荐，这个月双十一，那遇到的订单ID都在500万-1000万这样，就会造成热点问题，请求都打到order_1这个表上。当我们要查找数据，要先进行取模获取到数据在环上的位置，接着顺时针走，碰到的第一个节点就是存储节点。如果就一个库，然后挂掉了，影响率就是100%，如果有两个库，其中一个挂掉了，那影响率就是50%。随着单表的数据量变大，即使做了索引层面上的优化，还是存在性能瓶颈，就需要根据一定的规则分表。垂直分库：以表为依据，根据业务，将不同的表拆分到不同的库。

2023-01-07 11:23:43 87

原创 Phenix创建TABLE_SCHEM失败：Cannot create schema because config phoenix.schema.isNamespaceMappingEnabled

就是没开启hbase的namespace和phoenix的schema的映射。修改hbase和Phoenix下的hbase-site.xml。之后重启hbase即可。

2022-09-22 18:02:44 1014

原创 hbase启动报错：Could not start ZK at requested port of 2181. ZK was started at port: 2182.

默认为FALSE，FALSE是单机模式，TRUE是分布式模式，但是模式会将zk和hbase运行在同一个JVM中。更改hbase-site.xml文件。

2022-09-22 17:52:04 701

原创 org.apache.hadoop.hive.metastore.HiveMetaException: Failed to get schema version, Cause:Table ‘hive.

CDH安装hive的bug

2022-09-06 16:25:26 2247

原创一篇文章教会你 kylin

概述Apache Kylin™是一个开源的、分布式的分析型数据仓库，提供 Hadoop 之上的 SQL 查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc.开发并贡献至开源社区。只需要三步，即可实现超大数据集上亚秒级的查询1、定义数据集上的一个雪花模型或星型模型2、定义的模型上构建一个cube3、使用SQL通过ODBC、JDBC 或 RESTFUL API 进行查询，仅需亚秒级响应时间即可获得查询结果查询出的海量数据存储到Hbase安装这里涉及的环境太多了，为了方便

2022-05-28 21:06:12 261

原创 hadoop集群正常启动，却无法访问web页面

我刚刚启动hadoop集群，启动之后发现各个节点都在啊，咋访问不了web页面，上次启动时还能访问啊。我就百度，搜出来基本上都是说你防火墙没关，systemctl status firewalld 这不是已经关上了吗，还是访问不了，又百度出来，你没做host映射还是不行，最后还是改了hdfs-site.xml文件之前是hostname:9870，改成0.0.0.0:9870，然后重启集群就行了。虽然最后确实能访问了，但是我还是不明白，我没改动过集群配置啊，上次可以访问为啥这次就不能访问了

2022-05-25 11:34:04 5128 5

原创 Linux安装MySQL教程(附带5.7安装包)

1、安装包链接：https://pan.baidu.com/s/1amZbcl4er0X4tXxuBT8sog提取码：00002、卸载自带的MySQL-libsrpm -qa | grep -i -E mysql\|mariadb | xargs -n1 sudo rpm -e --nodeps3、导入到Linux中4、安装依赖[root@node00 mysql]# sudo rpm -ivh 01_mysql-community-common-5.7.16-1.el7.x86_64.rp

2021-07-05 12:27:24 107

原创 MySQL：for mysqld.service failed because the control process exited with error code. See “system

启动MySQL时报错：Job for mysqld.service failed because the control process exited with error code. See “systemctl status mysqld.service” and “journalctl -xe” for details.删除 /var/lib/mysql目录下的文件即可rm -rf /var/lib/mysql/*...

2021-07-05 11:55:03 218

原创 Hive入门

Hive基本概念Hive：是Facebook开源解决海量结构化日志的数据统计工具Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能Hive本质：将HQL转化成MapReduce程序Hive的数据存储在HDFS上Hive分析数据底层的实现是MapReduce执行程序运行在yarn上Hive的优缺点优点： 1、接口操作采用类SQL语法，提供快速开发的能力 2、避免了去写MapReduce 3、Hive的执行延迟比较高，因此Hi

2021-07-01 15:44:58 144

原创 Hadoop

Hadoop基本概念什么是HadoopHadoop是一个分布式基础框架，主要解决了海量的数据的存储和海量数据分析计算问题有什么优势高可靠性、高扩展性、高效性、高容错性可靠性：Hadoop底层维护多个数据副本，即使某个计算元素或者存储出现故障，也不会丢失数据扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度容错性：能够自动将失败的任务重新分配组成HDFSHDFS是一个分布式文件系统，主要三个角色：N

2021-06-15 14:45:03 76

原创 Hadoop-HDFS

HDFS概述为什么会有HDFS随着时间的积累，数据量会越来越大，一台服务器保存不完，那就保存在多台服务器下，多台服务器之间不便于管理，所以需要分布式文件管理系统来管理多台服务器上的文件。HDFS就是分布式文件管理系统的一种。HDFS是什么HDFS是一个分布式文件管理系统，用于存储文件，通过目录树来定位文件位置。HDFS使用场景适合一次写入，多次读出的场景。一个文件从创建到写入到关闭之后不需要改变HDFS优缺点优点： 1）高容错性数据会自动保存多个副本，某一个副本丢失了，会自动

2021-06-15 14:35:57 321 1

原创 Hadoop集群搭建（保姆式教学）

环境准备三台服务器：node00、node01、node02 以及 Java环境链接：https://pan.baidu.com/s/1-V_9d2cWBQzy092lyhwQtQ提取码：0000 （hadoop3.1.3以及jdk1.8的tar包）安装JDK1、通过xftp将jdk的tar包传入到Linux中2、解压 tar -zxvf jdk-8u212-linux-x64.tar.gz -C /usr/local/3、配置JDK环境变量（/etc/profile文件下）#jdk

2021-06-14 19:41:37 169 2

原创 Redis面试题（2021）

本文面试题绝对真实（初级）什么是redisC语言编写的高性能非关系型的键值对数据库redis为什么那么快1、基于内存，操作内存速度是非常快的2、采用单线程，避免的频繁的上下文切换（6.0后好像支持多线程）3、数据结构简单4、使用多路I/O复用模型，非阻塞IOredis的使用场景1、热点数据的缓存2、分布式锁3、计数器等redis怎么实现分布锁redis实现分布式锁主要利用redis的setnx命令如果你这个线程死掉了，你怎么释放这个锁设置个过期时间，即使线程死掉了，过期时间一

2021-06-13 11:03:30 162

原创 xsync同步脚本

安装rsync yum -y install rsync/usr/loca/bin目录下 #!/bin/bash#1. 判断参数个数if [ $# -lt 1 ]then echo Not Enough Arguement! exit;fi#2. 遍历集群所有机器for host in 主机名1 主机名2 主机名3do echo ==================== $host ==================== #3. 遍历所有目录，挨个发送 for

2021-06-03 12:07:00 184

原创 Zookeeper集群搭建及使用

什么是zookeeperzookeeper是一个开源的分布式，基于观察者模式的分布式服务管理框架。使用场景统一配置管理、统一命名服务、统一集群管理、软负载均衡、服务器节点动态上下线等统一配置管理：将配置信息写入zookeeper的一个znode中，各个服务端监听这个znode，znode中内容经过修改，zookeeper将会通知各个服务器统一命名服务：对服务/应用进行统一命名，便于识别统一集群管理：跟配置管理一样，写入znode并且监听，获取实时变化软负载均衡：记录每

2021-06-01 22:08:10 480 2

原创设计模式之单例模式（饿汉与懒汉）

什么是单例模式？单例模式，属于创建类型的一种常用的软件设计模式。通过单例模式的方法创建的类在当前进程中只有一个实例（所以构造器要私有化）。一：饿汉式/** * 饿汉式 */public class Hungry_Man { private Hungry_Man (){ }; private final static Hungry_Man HUNGRY_MAN = new Hungry_Man(); private static Hungry_Man getHungr

2021-01-01 17:22:42 110 1

weixin_51090485的博客