自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

YG15165的博客

请输入博客描述

  • 博客(32)
  • 收藏
  • 关注

原创 【大数据】hadoop运行环境搭建(搭建如此简单)

首先准备好工具。下载好最新的VMware Workstation,CentorOS 7运行Linux,建议Linux桌面标准版,且创建好一个用户模板机一定要按照步骤做好准备,避免遗漏,否则一台一台改超级麻烦。搭建hadoop运行环境!!

2023-07-07 20:50:14 3081 2

原创 【Bug】ubantu定时任务crontab启动了但是没作用

点击前往🔗脚本的路径一定要写全,不然找不到命令!

2024-03-23 22:35:25 285

转载 【转载】ubantu定时任务没反应

【转载】ubantu定时任务没反应

2024-03-23 20:05:58 40

原创 【Bug】[42000][30041] Error while processing statement: FAILED: Execution Error,from org.apache.hadoop

根据上面报错,再jps查看进程只有一个RunJar(hivesever2),可以得知spark没有启动,可能没有内存启动! 杀掉或者进程(反正就是鲨掉所有进程)

2024-03-23 19:18:18 409 1

原创 【大数据】数仓5.0_数仓运行环境准备➕ODS&DIM层部署

🔨Hive引擎简介:Hive引擎包括默认MR、Tez、Spark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行(生态好组件多): Hive只作为存储元数据,Spark负责SQL解析优化,语法是Spark SQL语法,Spark负责采用RDD执行(相比来说快一点)🔨兼容性说明:官网下载的Hive3.1.3和Spark3.0.0默认是不兼容的。

2023-10-24 21:59:38 220

原创 【大数据】数仓5.0_数仓建模设计理论

数据仓库是一个为数据分析而设计的企业级数据管理系统。数据仓库可集中、整合多个信息源的大量数据,借助数据仓库的分析能力,企业可从数据中获得宝贵的信息进而改进决策。同时,随着时间的推移,数据仓库中积累的大量历史数据对于数据科学家和业务分析师也是十分宝贵的:工作流定时调度器如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;

2023-10-18 20:14:56 204

原创 【大数据】数仓5.0_业务采集➕数据同步策略(数仓环境搭建完成)

紧接上一篇👉点击前往数仓准备工作🔨电商的业务流程可以以一个普通用户的浏览足迹为例进行说明,用户点开电商首页开始浏览,可能会通过分类查询也可能通过全文搜索寻找自己中意的商品,这些商品都是存储在后台的管理系统中的当用户寻找到自己中意的商品,可能会想要购买,将商品添加到购物车后发现需要登录,登录后对商品进行结算,这时候购物车的管理和商品订单信息的生成都会对业务数据库产生影响,会生成相应的订单数据和支付数据。订单正式生成之后,还会对订单进行跟踪处理,直到订单全部完成。🔨电商的主要业务流程。

2023-10-13 21:38:46 569

原创 【大数据】DataX 部署及使用

DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能👉点击前往查看源码✍简单了解了DataX的使用方法,全量表数据由DataX从MySQL业务数据库直接同步到HDFS。

2023-10-07 20:50:51 808

原创 【大数据】Maxwell-1.29.2安装

🥡Maxwell 是由美国Zendesk公司开源,用Java编写的MySQL变更数据抓取软件。它会实时监控Mysql数据库的数据变更操作(包括insert、update、delete),并将变更数据以 JSON 格式发送给 Kafka、Kinesi等流数据处理平台。👉点击前往官网。

2023-10-06 16:27:09 442 1

原创 【大数据】Flume-1.10.0/1.9.0安装➕入门案例

大数据解决的无非是海量数据的采集、存储、计算,Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。flume能保证数据的可靠性,但不能保证数据的重复性Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS✍出bug多看看flume目录下的flume`.log文件查看错误信息,问问al轻松解决!👇罪魁祸首(-f)!✍下一节,flume事务!

2023-09-30 13:09:57 384

原创 【大数据】Kafka-3.5.0安装

Kafka传统定义:是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。发布/订阅模式:消息的发布者不会将消息直接发送给特定的订阅者,而是将发布的消息分为不同的类别,订阅者只接收感兴趣的消息Kafka最新定义:是一个开源的分布式事件流平台 (Event StreamingPlatform),被数千家公司用于高性能数据管道、流分析、数据集成和关键任务应用。

2023-09-26 20:16:18 348

原创 【大数据】数仓5.0准备工作

🔨数据仓库是为企业制定决策,提供数据支持的。可以帮助企业改进业务流程、提高产品质量等。🔨数据仓库的输入数据通常包括:业务数据(响应要快)、用户行为数据和爬虫数据等业务数据:就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录、下单、支付等过程中,需要和网站后台数据库进行增删改查交互,产生的数据就是业务数据。业务数据通常存储在 MySQL、Oracle 等数据库中用户行为数据:用户在使用产品过程中,通过埋点收集与客户端产品交互过程中产生的数据,并发往日志服务器进行保存。

2023-09-24 23:21:45 596

原创 【大数据】zookeeper-3.9.0安装

Zookeeper是一个开源的分布式的,为分布式框架提供协调服务的Apache项目1️⃣Zookeeper:一个领导者(Leader),多个跟随者(Follower)组成的集群。2️⃣集群中只要有半数以上节点存活,Zookeeper集群就能正常服务。所 以Zookeeper适合安装奇数台服务器。3️⃣全局数据一致:每个Server保存一份相同的数据副本,Client无论连接到哪个Server,数据都是一致的。4️⃣更新请求顺序执行,来自同一个Client的更新请求按其发送顺序依次执行。

2023-09-24 23:15:35 1980

原创 【大数据】hive企业级调优(尚硅谷hive3.1.3教程)

hive调优,面试、工作中常用,非常重要。计算资源调优和执行计划调优🥝Explain呈现的执行计划,由一系列Stage组成,这一系列Stage具有依赖关系(执行完一个执行下一个),每个Stage对应一个,或者一个文件系统操作等。若某个Stage对应的一个,其Map端和Reduce端的计算逻辑分别由和进行描述,由一系列的Operator组成,一个Operator代表在Map或Reduce阶段的一个单一的逻辑操作,例如等。下图是由一个执行计划绘制而成:👉常见的Operator及其作用如下。

2023-09-16 21:32:52 443 1

原创 【大数据】Hive函数➕分区分桶表➕hive文件格式和压缩

hive打开本地模式sql语句:set hive.exec.mode.local.auto=true;max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数👉参考官方文档UDF一进一出,单行函数UDAF用户自定义聚合函数,多进一出。UDTF用户自定义表生成函数,一进多出。如继承Hive提供的类实现类中的抽象方法在hive的命令行窗口创建函数-- 添加jar。-- 创建function。

2023-09-07 21:21:07 346 1

原创 Hive,启动!

解决了DG难以连接上hive的问题,帮助铁铁们快速连上hive,节约了大家的时间,完成了氵文的任务~

2023-09-07 19:09:40 143 2

原创 【大数据】Hive_DDL&DML&select

我的编程语言学习笔记——hive🍉创建数据库(方括号里为可选项)🌰举个例子# 创建一个数据库,不指定HDFS路径# 创建一个数据库,指定HDFS路径# 创建一个数据库,带有dbproperties若不指定路径,其默认路径为🍉查询数据库# 查看数据库信息like表示任意个任意字符,表示或的关系🌰举个例子# 查看详细信息包括dbproperties信息🍉修改数据库用户可以使用命令修改数据库某些信息,其中能够修改的信息包括。需要注意的是:修改数据库location。

2023-08-31 11:27:32 212

原创 【大数据】Hive入门➕安装(尚硅谷大数据Hive 3.1.3教程)

hive尚硅谷面试刷题网站✍命令行客户端beeline是Apache Hive提供的一个交互式工具,用于与Hive进行交互式的数据库操作和查询。具体来说,beeline允许用户通过命令行界面连接到Hive服务器,并在该界面下执行Hive SQL语句、查看查询结果、管理数据库和表等。连接到Hive服务器:通过指定连接URL、用户名、密码等信息,可以建立与Hive服务器的连接。

2023-08-27 23:26:12 1579 1

原创 【BUG】解决DG连接不上Linux中MySQL数据库( “Host ‘192.168.150.1‘ is not allowed to connect to this MySQL server“)

小小bug,不成敬意。[HY000][1130] null, message from server: "Host '192.168.150.1' is not allowed to connect to this MySQL server".

2023-08-24 21:46:36 174 1

原创 【MySQL】读写分离(Mycat)

读写分离,简单地说是把对数据库的读和写操作分开,以对应不同的数据库服务器。主数据库提供写操作,从数据库提供读操作,这样能有效地减轻单台数据库的压力。通过Mycat即可轻易实现上述功能,不仅可以支持MySQL,也可以支持Oracle和SQL Server。1️⃣Mycat将应用程序的操作路由到主库master,然后同步到从库slave2️⃣Mycat将应用程序的select操作路由到从库slave。✍读写分离是为了降低单台服务器的访问压力,写走主库,读走从库。

2023-08-21 10:47:11 68 1

原创 【MySQL】分库分表(Mycat、MySQL8驱动jar包下载)

我的编程语言学习笔记——MySQL分库分表Mycat是开源的、活跃的、基于Java语言编写的My5QL数据库中间件。可以像使用mysql一样来使用mycat,对于开发人员来说根本感觉不到mycat的存在(伪装MySQL协议)✍分库分表核心:将单台数据库服务器的数据分散(垂直拆分、水平拆分)存储在多台数据库中✍MyCat是一个开源的分库分表的中间件,最主要的三个配置文件Schema.xmlrule.xmlserver.xml。

2023-08-20 22:36:15 1008 1

原创 【MySQL】日志➕主从复制(二进制日志、错误日志、通用查询日志的开启)

如何延长周末体验感?我学MySQL~🌭主从复制是指将主数据库的DDL和DML操作通过二进制日志传到从库服务器中,然后在从库上对这些日志重新执行(也叫重做),从而使得从库和主库的数据保持同步。MySQL支持一台主库(Master)同时向多台从库(Slave)进行复制,从库同时也可以作为其他从服务器的主库,实现链状复制。主库出现问题,可以快速切换到从库提供服务。实现读写分离,降低主库的访问压力。可以在从库中执行备份,以避免备份期间影响主库服务。✍下一节:分库分表。

2023-08-13 21:19:59 358 1

原创 【MySQL】锁➕InnoDB引擎➕MySQL管理

🍟锁是计算机协调多个进程或线程并发访问某一资源的机制。🍟在数据库中,除传统的计算资源(CPU、RAM、磁盘I/O)的争用以外,数据也是一种供许多用户共享的资源。🍟如何保证数据并发访问的一致性、有效性是所有数据库必须解决的一个问题,锁冲突也是影响数据库并发访问性能的一个重要因素。从这个角度来说,锁对数据库而言显得尤其重要,也更加复杂。全局锁:锁定数据库中的所有表。表级锁:每次操作锁住整张表。行级锁:每次操作锁住对应的行数据。

2023-08-09 00:00:29 71

原创 【大数据】Hadoop_生产调优手册➕总结(附详细代码)

以下修改的配置文件均在目录下一、Hadoop入门 1 、常用端口号hadoop3.xHDFS NameNode 内部通常端口:8020/9000/9820HDFS NameNode 对用户的查询端口:9870Yarn查看任务运行情况的:8088历史服务器:19888hadoop2.xHDFS NameNode 内部通常端口:8020/9000HDFS NameNode 对用户的查询端口:50070Yarn查看任务运行情况的:8088。

2023-08-05 23:56:28 403 1

原创 【大数据】Hadoop_Yarn➕实操(附详细代码)

Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 MapReduce等运算程序则相当于运行于操作系统之上的应用程序。

2023-08-03 08:18:29 516

原创 【MySQL】视图➕存储条件➕触发器

学生党如何过周末?我学MySQL这一节学习了MySQL的视图、存储过程、触发器,下一节锁🔒。

2023-07-30 23:54:25 164 1

原创 【大数据】Hadoop_MapReduce➕实操(附详细代码)

MapReduce是hadoop的核心组件之一,hadoop要分布式包括两部分,一是分布式文件系统hdfs,一是分布式计算框,就是mapreduce,二者缺一不可,也就是说,可以通过mapreduce很容易在hadoop平台上进行分布式的计算编程sftp命令:Windows下登录Hadoop102lcd切换Windows路径,cd切换Linux路径,get下载,put上传🧮MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop 的数据分析应用”的核心框架。

2023-07-30 00:58:34 1849 1

原创 【MySQL】存储引擎➕索引➕优化(Linux下MySQL安装)

索引(index)是帮助MySQL高效获取数据的数据结构有序在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据,这样就可以在这些数据结构上实现高级查找算法,这种数据结构就是索引🍕演示(select效率嘎嘎提升):学习了引擎、索引(重点)、SQL优化,多复习基础篇知识,边温故边学新,下一站视图/存储过程/触发器、锁🔒。

2023-07-23 20:45:30 542

原创 【大数据】Hadoop_HDFS

随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种🧰Hadoop Distributed File System,它是一个文件系统,用于存储文件,通过目录树来定位文件;它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。重点掌握HDFS中shell命令部分,大概了解了HDFS,下一篇👉MapReduce。

2023-07-21 20:30:44 167 1

原创 【大数据】hadoop的运行模式(root用户下、尚硅谷Hadoop入门)

Hadoop 运行模式包括:本地模式、伪分布式模式以及完全分布式模式了解更多详情👉hadoop官方网站过知识点时只有多敲多练测试案例才能找到学习过程中的bug,yarn相关操作要在hadoop103上进行…完全分布模式的守护进程运行在由多台主机搭建的集群上,是真正的生产环境。在所有的主机上安装JDK和Hadoop,组成相互连通的网络。hadoop运行在多台机器上面,称之为hadoop集群。✍下一任务:HDFS。

2023-07-15 11:48:09 1763 1

原创 【Linux】Shell学习笔记

Shell 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。让用户能够更加高效、安全、低成本地使用 Linux 内核,这就是 Shell 的本质。shell脚本就是由Shell命令组成的执行文件,将一些命令整合到一个文件中,进行处理业务逻辑,脚本不用编译即可运行。它通过解释器解释运行,所以速度相对来说比较慢。

2023-07-11 21:06:55 275

原创 【大数据】Hadoop新手小白学习初体验(尚硅谷hadoop3.x教程同步笔记)

Hadoop是用来解决海量数据的存储和海量数据的分析计算问题,一个分布式系统基础架构高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度高容错性:能够自动将失败的任务重新分配Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。

2023-07-04 09:36:25 763

maxwell-1.29.2安装包

此处使用教学版安装包,教学版对原版进行了改造,增加了自定义Maxwell输出数据中ts时间戳的参数,生产环境请使用原版此处使用教学版安装包,教学版对原版进行了改造,增加了自定义Maxwell输出数据中ts时间戳的参数,生产环境请使用原版此处使用教学版安装包,教学版对原版进行了改造,增加了自定义Maxwell输出数据中ts时间戳的参数,生产环境请使用原版此处使用教学版安装包,教学版对原版进行了改造,增加了自定义Maxwell输出数据中ts时间戳的参数,生产环境请使用原版此处使用教学版安装包,教学版对原版进行了改造,增加了自定义Maxwell输出数据中ts时间戳的参数,生产环境请使用原版此处使用教学版安装包,教学版对原版进行了改造,增加了自定义Maxwell输出数据中ts时间戳的参数,生产环境请使用原版此处使用教学版安装包,教学版对原版进行了改造,增加了自定义Maxwell输出数据中ts时间戳的参数,生产环境请使用原版此处使用教学版

2023-10-06

数仓5.0模拟加业务数据

数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加业务数据数仓5.0模拟加

2023-10-06

maxwell-1.29.2.jar修改后兼容utf8mb3

maxwell-1.29.2.jar修改后兼容utf8mb3maxwell-1.29.2.jar修改后兼容utf8mb3maxwell-1.29.2.jar修改后兼容utf8mb3maxwell-1.29.2.jar修改后兼容utf8mb3maxwell-1.29.2.jar修改后兼容utf8mb3maxwell-1.29.2.jar修改后兼容utf8mb3maxwell-1.29.2.jar修改后兼容utf8mb3maxwell-1.29.2.jar修改后兼容utf8mb3maxwell-1.29.2.jar修改后兼容utf8mb3maxwell-1.29.2.jar修改后兼容utf8mb3maxwell-1.29.2.jar修改后兼容utf8mb3maxwell-1.29.2.jar修改后兼容utf8mb3maxwell-1.29.2.jar修改后兼容utf8mb3maxwell-1.29.2.jar修改后兼容utf8mb3maxwell-1.29.2.jar修改后兼容utf8mb3maxwell-1.29.2.jar修改后兼容utf8mb3maxwell-1.29.2.jar修改

2023-10-06

大数据数仓5.0业务数据

【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据【大数据】数仓5.0业务数据

2023-10-05

大数据数仓5.0模拟数据压缩包

/opt/moudle/applog

2023-10-01

大数据数仓5.0模拟数据json

大数据数仓5.0模拟数据

2023-10-01

大数据数仓5.0模拟数据yml

大数据数仓5.0模拟数据

2023-10-01

大数据数仓5.0模拟数据jar包

大数据数仓5.0模拟数据

2023-10-01

大数据数仓5.0模拟数据

大数据数仓5.0模拟数据

2023-10-01

高等数学学校练习册答案.zip

高等数学学校练习册答案.zip

2023-02-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除