一马什么梅一-CSDN博客

原创大数据学习路线基础指南‌

制定一份大数据学习路线是一个持续的过程，‌需要学习者不断地更新知识、‌积累经验和拓展视野。‌通过系统地学习大数据的核心概念、‌技术栈、‌实战经验和理论知识，‌你将逐渐从一名零基础的学习者成长为一名精通大数据的专业人士。‌在这个过程中，‌保持对技术的热情和好奇心，‌勇于探索未知领域，‌将是你成功的关键。‌。

2024-08-27 16:28:59 787

通过对以上几款主流国产数据库的对比分析可以看出，‌国产数据库在性能、‌功能、‌兼容性等方面均取得了显著进步。‌随着技术的不断成熟和市场需求的日益增长国产数据库有望在未来实现更大的突破和发展。‌同时，‌我们也应看到国产数据库在市场推广、‌品牌建设等方面仍需继续努力以进一步提升市场竞争力。‌展望未来国产数据库市场将继续保持蓬勃发展的态势。‌随着大数据、‌云计算、‌人工智能等新兴技术的不断融合应用国产数据库将迎来更加广阔的发展空间。

2024-08-27 16:21:08 2578

原创缓慢变化维

类型2（TYPE 2）：增加新行。为了保留历史数据，我们可以在维度表中为张三增加一个新的行记录，记录他的新地址信息（包括上海市静安区），并为这个新行分配一个新的代理键（如使用自增ID）。为了保留历史数据，我们可以在维度表中为张三增加一个新的行记录，记录他的新地址信息（包括上海市静安区），并为这个新行分配一个新的代理键（如使用自增ID）。总结来说，缓慢变化维和拉链表之间的关系在于它们都是数据仓库中用于处理非静态数据历史变化状态的技术或模型，但缓慢变化维是一个更广泛的概念，而拉链表是其中的一种具体实现方式。

2024-07-24 15:59:21 1133

原创文本按照指定规则批量添加字符的技巧（正则）

正则表达式是一种文本处理强有力的工具，但同时也定义复杂的规则，下面主要解释正则表达式特殊字符的含义正则表达式的特殊字符主要包括”.^$()*+?{}[]|”.是单字符的通配符^匹配行的开头$匹配行的末尾()定义一个正则表达式匹配子元素{}可以手工指定元素出现的次数[]表示字符集，‌用于匹配方括号中列出的任何一个字符。‌例如，‌[abc]会匹配字符"a"、‌"b"或"c"中的任意一个。‌\表示转义字符|表示逻辑或的概念*表示前面字符可以出现任意多次(n>=0)

2024-07-24 10:54:48 733

原创 ETL工具Kettle使用总结

好久没有发布文章了，就用最近工作常用的kettle工具做为素材写一下随笔，方便以后碰到相同的问题快速解决。kettle的简介我就不介绍了，大家随便百度一下就可以查到，主要作用就是用于从一个或多个数据源中提取数据，对数据进行转换和清洗（这个过程就是ETL），然后加载到目标数据存储中，以支持数据分析、报表生成、业务决策等需求。

2024-07-22 17:45:57 1180

原创 HDFS常见题

后每一小时datanode向namenode上传块信息，每3秒datanode向namenode发送一次心跳包，并携带namenode给datanode的命令，默认情况下如果超过10分30秒namenode没有收到datanode的心跳，则任务datanode掉线。HDFS是大数据开源框架hadoop的组件之一，全称（Hadoop Distributed File System），它是一个分布式文件系统，由多台服务器联合起来实现文件存储功能，通过目录树来定位文件，集群中的服务器都有有各自的角色。

2023-12-07 13:42:23 1136

原创 zabbix安装使用

Zabbix是一款能够监控各种网络参数以及服务器健康性和完整性的软件。Zabbix使用灵活的通知机制，允许用户为几乎任何事件配置基于邮件的告警。这样可以快速反馈服务器的问题。基于已存储的数据，Zabbix提供了出色的报告和数据可视化功能。

2022-12-28 16:57:47 1071 1

原创 Superset安装与使用

Apache Superset是一个开源的、现代的、轻量级BI分析工具，能够对接多种数据源、拥有丰富的图表展示形式、支持自定义仪表盘，且拥有友好的用户界面，十分易用。

2022-12-24 22:10:23 950

原创 Azkaban的使用安装

1）将azkaban-db-3.84.4.tar.gz，azkaban-exec-server-3.84.4.tar.gz，azkaban-web-server-3.84.4.tar.gz上传到hadoop102的/opt/software路径。3）解压azkaban-db-3.84.4.tar.gz、 azkaban-exec-server-3.84.4.tar.gz和azkaban-web-server-3.84.4.tar.gz到/opt/module/azkaban目录下。

2022-12-24 21:44:08 931

原创常用系统函数

NVL（表达式1，表达式2）如果表达式1为空值，NVL返回值为表达式2的值，否则返回表达式1的值。该函数的目的是把一个空值（null）转换成一个实际的值。其表达式的值可以是数字型、字符型和日期型。但是表达式1和表达式2的数据类型必须为同一个类型。7.1.2 日期处理函数1）date_format函数（根据格式整理日期）2）date_add函数（加减日期）3）next_day函数（1）取当前天的下一个周一说明：星期一到星期日的英文（Monday，Tuesday、Wednesday、Thur

2022-12-14 12:49:42 438

原创数仓搭建-DWD层

（1）页面埋点日志（2）启动日志1）数据2）取出第一个json对象结果是：{“name”:“大郎”,“sex”:“男”,“age”:“25”}3）取出第一个json的age字段的值6.1.3 启动日志表启动日志解析思路：启动日志表中每行数据对应一个启动记录，一个启动记录应该包含日志中的公共信息和启动信息。先将所有包含start字段的日志过滤出来，然后使用get_json_object函数解析每个字段。2）数据导入判断启动日志的依据，json串中有start字段3）查看数据hive

2022-12-01 11:29:47 589

原创数仓搭建-DIM层

2.分区规划（1）两种方式，分别查询数据有多少行（2）两次查询结果不一致。原因是select * from ods_log不执行MR操作，直接采用的是ods_log建表语句中指定的DeprecatedLzoTextInputFormat，能够识别lzo.index为索引文件。select count(*) from ods_log执行MR操作，会先经过hive.input.format，其默认值为CombineHiveInputFormat，其会先将索引文件当成小文件合并，将其当做普通文件处理。更严重的

2022-11-27 19:16:48 233

原创数仓搭建-ODS层

（1）在/home/atguigu/bin目录下创建脚本hdfs_to_ods_db_init.sh。注意：[ -n 变量值 ]不会解析数据，使用[ -n 变量值 ]时，需要对变量加上双引号(" ")在企业开发中，除了自己用的临时表，创建内部表外，绝大多数场景都是创建外部表。（1）在/home/atguigu/bin目录下创建脚本hdfs_to_ods_db.sh。首日脚本与每日脚本最大的区别就是地区省份表只需要首日加载，每日脚本无需加载。3）创建分区表，防止后续的全表扫描，在企业开发中大量使用分区表。

2022-11-27 11:43:44 1214

原创 Hive安装部署

（1）把apache-hive-3.1.2-bin.tar.gz上传到Linux的/opt/software目录下。（2）解压apache-hive-3.1.2-bin.tar.gz到/opt/module/目录下面。（3）修改apache-hive-3.1.2-bin.tar.gz的名称为hive。（5）解决日志Jar包冲突，进入/opt/module/hive/lib目录。（4）修改/etc/profile.d/my_env.sh，添加环境变量。（2）新建Hive元数据库。（1）启动Hive客户端。

2022-11-25 14:31:00 142

原创 MySQL安装

注意：如果报如下错误，这是由于yum安装了旧版本的GPG keys所造成，从rpm版本4.1后，在安装或升级软件包时会自动检查软件包的签名。说明：由于阿里云服务器安装的是Linux最小系统版，没有如下工具，所以需要安装。（1）卸载自带的Mysql-libs（如果之前安装过MySQL，要全都卸载掉）（1）卸载MySQL依赖，虽然机器上没有装MySQL，但是这一步不可少。1）用刚刚查到的密码进入MySQL（如果报错，给密码加单引号）2）设置复杂密码（由于MySQL密码策略，此密码必须足够复杂）

2022-11-25 14:08:38 200

原创 NameNode页面不能显示完整信息解决

在http://hadoop104:9868/status.html 页面强制刷新。访问2NN页面http://hadoop104:9868，看不到详细信息。将61行数据替换为以下。

2022-11-24 16:56:00 1066 1

原创 Kafka集群安装压测

同时设置batch.size和 linger.ms，就是哪个条件先满足就都会将消息发送出去Kafka需要考虑高吞吐量与延时的平衡。吞吐量受网络带宽和fetch-size的影响。

2022-11-24 16:43:08 247

原创 Zookeeper安装配置

集群模式下配置一个文件myid，这个文件在dataDir目录下，这个文件里面有一个数据就是A的值，Zookeeper启动时读取此文件，拿到里面的数据与zoo.cfg里面的配置信息比较从而判断到底是哪个server。（1）重命名/opt/module/zookeeper-3.5.7/conf这个目录下的zoo_sample.cfg为zoo.cfg。（2）在/opt/module/zookeeper-3.5.7/zkData目录下创建一个myid的文件。（3）拷贝配置好的zookeeper到其他机器上。

2022-11-24 16:19:45 140

原创多目录及数据均衡配置

HDFS的DataNode节点保存数据的路径由dfs.datanode.data.dir参数决定，其默认值为file://${hadoop.tmp.dir}/dfs/data，若服务器有多个磁盘，必须对该参数进行修改。注意：于HDFS需要启动单独的Rebalance Server来执行Rebalance操作，所以尽量不要在NameNode上执行start-balancer.sh，而是找一台比较空闲的机器。（1）生成均衡计划（我们只有一块磁盘，不会生成计划）（3）查看当前均衡任务的执行情况。

2022-11-24 16:05:57 177

原创 LZO压缩配置

hadoop本身并不支持lzo压缩，故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译，编译步骤如下。解决办法：在hadoop102的/opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml文件中增加。将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-3.1.3/share/hadoop/common/（1）将bigtable.lzo（200M）上传到集群的根目录。

2022-11-24 16:05:03 521

原创 hdfs读写性能测试

由于目前只有三台服务器，且有三个副本，数据读取就近原则，相当于都是读取的本地磁盘数据，没有走网络。注意：nrFiles n为生成mapTask的数量，生产环境一般可通过hadoop103:8088查看CPU核数，设置为（CPU核数 - 1）（1）使用RandomWriter来产生随机数，每个节点运行10个Map任务，每个Map产生大约1G大小的二进制随机数。10M/s单位是byte;（2）测试内容：向HDFS集群写10个128M的文件。（1）测试内容：读取HDFS集群10个128M的文件。

2022-11-24 16:04:05 1328

原创 Hadoop集群基础配置

（1）如果集群是第一次启动，需要在hadoop102节点格式化NameNode（注意格式化之前，一定要先停止上次启动的所有namenode和datanode进程，然后再删除data和log数据）（3）在配置了ResourceManager的节点（hadoop103）启动YARN。（4）Web端查看HDFS的Web页面：http://hadoop102:9870/（2）打开/etc/profile.d/my_env.sh文件。（5）source一下，使之生效（3台节点）1）配置yarn-site.xml。

2022-11-24 15:28:29 488

原创 JDK免密准备

因此不管是login shell还是non-login shell，启动时都会加载/etc/profile.d/*.sh中的环境变量。这两种shell的主要区别在于，它们启动时会加载不同的配置文件，login shell启动时会加载/etc/profile，Linux的环境变量可在多个文件中配置，如/etc/profile，/etc/profile.d/*.sh，/.bashrc中加载的/etc/bashrc）或/etc/profile时，都会执行如下代码片段，

2022-11-24 15:08:06 289

原创阿里云服务器的购买

阿里云服务器使用说明。

2022-11-23 20:10:39 144

原创项目需求及架构设计

可以以图形的方式显示任务间的依赖关系，如果某一job的运行过程出现异常，可以通过血缘关系图查看受影响的job,从而挑选出优先级最高的job顺序解决。任务量多有成百上千的任务，atlas的意义便会很大、图形化界面通过肉眼查看血缘关系图找到受影响的job,从而挑选出优先级最高的job顺序解决。Ranger(主流): 通过权限管理实现不同权限的用户可以看到不同的表、或者不同权限的用户可以看到某张表中不同的字段。通过权限管理实现不同权限的用户可以看到不同的表、或者不同权限的用户可以看到某张表中不同的字段。

2022-11-23 19:49:29 1540

转载 Xshell连接不上虚拟机

注：Xshell连接不上虚拟机还会出现一种情形虚拟机可以ping通主机，主机也可以ping通虚拟机，但是就是连接不上，此时我们可以打开C:\Windows\System32\drivers\etc，打开host这个文件，查看之前写的映射关系是否是打开状态。2.打开本机的虚拟机->打开虚拟机的终端，尝试ping一下百度，看是否可以ping通。8.启动完成后，重新回到虚拟机的终端中，在此尝试ping百度，此时就可以ping通。1.启动本机虚拟机，尝试Xshell连接虚拟机会出现如下界面，显示连接不上虚拟机。

2022-11-21 08:51:08 3141 2

原创 Hive on spark环境搭建

Hive引擎包括：默认MR、tez、sparkHive on Spark：Hive既作为存储元数据又负责SQL的解析优化，语法是HQL语法，执行引擎变成了Spark，Spark负责采用RDD执行。Spark on Hive : Hive只作为存储元数据，Spark负责SQL解析优化，语法是Spark SQL语法，Spark负责采用RDD执行。

2022-11-19 20:07:05 1849 2

原创数仓系统的创建

数据建模必须遵循一定的规则，在关系建模中，这种规则就是范式。

2022-11-19 18:23:53 123

原创 oracle安装使用

目的是方便日后再次安装可以快速找到安装方案和防止博客删除之前需要配置环境变量，博主jdk版本为1.8从官网下载Oracle的安装包，本文主要以19版本来安装(没找到11版本的下载地址)，注意下载的时候下载企业版，不要去下载快捷版Windows 安装1. 首先是在Windows 10 系统进行安装，解压下载的文件，双击运行 “setup.exe” 进行安装，选择配置选项2. 选择系统类，支持桌面类和服务器类，根据自己的需求选择。

2022-11-14 22:13:49 3411

原创 flume的安装配置笔记

flume安装与配置

2022-11-10 17:17:21 1098

转载 PMP专题练习-整合管理

本文出自：https://zhuanlan.zhihu.com/p/388795303本人非原创，整理合并的目的在于方便学习（一）1、 [单选] 项目发起人向项目经理提出高层级项目需求。然后项目经理在制定项目管理计划之前，要求与一名主题专家(SME)进行访谈。根据这些信息，项目发起人使用的文件是什么？A project sponsor presents the high-level project requirements to the project manager.The project man

2022-03-28 10:01:22 2593

原创 Hbase的特点

文章目录8. Hbase有收获？希望烙铁们来个三连击，让更多的同学看到这篇文章8. Hbasehbase是一个分布式的、可伸缩的大数据存储的数据库（非关系型数据库）当我们需要对大数据进行随机的、实时的读、写访问的时候，需要使用hbase。8.1 HBase的物理结构HBase集群涉及到的一些角色（物理模型）：1，Client端client：hbase的客户端，包含访问hbase的接口（linux shell 、java api）client维护一些cache来加快访问hbase的速度，比如r

2022-03-21 16:13:57 593

原创 YARN组件（三）

文章目录YARN组件ResourcemanagerNodemanagerContainerMRAppMasterYARN的执行流程（Job的提交流程）YARN的资源调度器Spark提交任务到Yarn命令yarn-cluster模式总结YARN组件YARN的基本组成结构，YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等几个组件构成ResourcemanagerRM是一个全局的资源管理器，集群只有一个，负责整个系统的资源管理

2022-03-10 10:23:22 1692 1

原创 MapReduce组件

文章目录MapReduceMR的优缺点MR的执行流程MapReduceMR的优缺点优点:1.MR易于编程,它提供一些简单统一的接口,可以放程序猿完成一个分布式程序,这个分布式程序可以运行在大量廉价的PC机器上.2.良好的扩展性:当计算资源不能满足的时候,可以通过简单的增加启动来扩展计算能力3.高容错性:假如一台机器挂了,它可以上面的计算任务转移到另外一个节点上,不会影响任务导致失败,这个过程需要人工干涉,后期版本的Hadoop提供自动干预4.MR适合的是离线数据处理缺点：1.MR不适

2022-03-10 10:08:02 1138

原创 HDFS组件

文章目录HDFS组件及优略HDFS的优缺点NameNode(主)DataNode(从)SecondaryNameNodeJournalNode（共享文件的进程）HDFS读写流程HDFS文件系统读流程HDFS文件系统写流程HDFS集群高可用(HA)高可用的备份方式为什么HDFS要有HA存在HDFS组件及优略HDFS的优缺点优点：高可靠性:Hadoop存储和处理数据的能力强高扩展性: 有效的分布数据计算,在不同节点上高效性:动态的移动数据,可以保证各个节点之间的数据平衡高容错: Hadoop能自

2022-03-10 09:59:29 1829

原创 kafka操作命令

CDH环境下，未配置kafka环境变量的操作命令--查看主题/opt/cloudera/parcels/CDH-6.2.1-1.cdh6.2.1.p0.1425774/lib/kafka/bin/kafka-topics.sh --list --zookeeper 192.168.134.121:2181,192.168.134.122:2181,192.168.134.123:2181--创建主题/opt/cloudera/parcels/CDH-6.2.1-1.cdh6.2.1.p0.1425

2022-03-04 10:38:52 220 3

原创 sqoop安装与使用

3）上传安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz到hadoop102的/opt/software路径中。2）下载地址：http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/2）进入到/opt/software/路径，拷贝jdbc驱动到sqoop的lib目录下。1）进入到/opt/module/sqoop/conf目录，重命名配置文件。（1）在/home/atguigu/bin目录下创建。（2）增加脚本执行权限。

2022-02-24 09:55:00 2090

CDH安装指导，亲自实践具体到细节

学习Flink有这一篇就够了

空空如也