自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(74)
  • 收藏
  • 关注

原创 OOM就一定要启用swap?

在技术群中到,看到有人数据库OOM了,DBA没有去排查高占用的进程,而是去排查为什么swap没有生效,我觉得很有意思。为此我查阅了一些资料,先给大家讲讲swap的作用是什么”

2024-04-18 21:23:47 874 1

原创 hive了解系列一

查询延迟高:每一次启动脚本,hive都会去调用mapdurce导致其启动时间长。复杂查询性能有限:对于一些复杂场景(如:行列转换、递归查询等)。数据更新和事务性操作不佳:不支持update、delete语句。ACID:hive不是一个ACID模型数据库工具,不支持事务处理。

2024-04-15 11:56:45 731

原创 多进程数据库不适合作为hive的元数据库

今天发现一个比较奇怪的现象,因为博主不熟悉mysql,所以在安装hive的使用了postgresql作为hive的元数据库,在测试几个连接工具对hive进行链接,后面再测试的时候发现链接不上了,并且报错日志如下:”null大概意思就是我JVM的资源不足了,内存溢出了这个就很奇怪, 我就测试了几个数据库链接工具,还没上强度,也没上job,怎么就内存溢出了呢?我查看了一下进程(看看是什么事务占用了资源),吓我一跳。

2024-03-17 13:27:18 517

原创 hive中spark SQL做算子引擎,PG作为MetaDatabase

hive架构原理1.客户端可以采用jdbc的方式访问hive2.客户端将编写好的HQL语句提交,经过SQL解析器,编译器,优化器,执行器执行任务。hive的存算都依赖于hadoop框架,所依赖的真实数据存放在hdfs中,解析好的mapreduce程序,提交给yarn。3.另外hive框架自带一个名为debay的数据库,其作用是用来记录hdfs上数据的存放位置,也就是说,在客户端提交任务之后,hive优先会去数据库中查询所需要数据在hdfs上面的路径信息,然后在拿着路径信息再去hdfs寻找数据。

2024-03-03 15:42:18 869

原创 SparkStreaming在实时处理的两个场景示例

Spark Streaming是Apache Spark生态系统中的一个组件,用于实时流式数据处理。它提供了类似于Spark的API,使开发者可以使用相似的编程模型来处理实时数据流。Spark Streaming的工作原理是将连续的数据流划分成小的批次,并将每个批次作为RDD(弹性分布式数据集)来处理。这样,开发者可以使用Spark的各种高级功能,如map、reduce、join等,来进行实时数据处理。

2024-03-02 15:28:56 536

原创 hadoop ha安装

Hadoop是一个开源的分布式存储和计算框架,最初由Apache软件基金会开发。它的发展背景可以追溯到Google的MapReduce和Google File System(GFS)的论文,这两篇论文启发了Hadoop的设计。Hadoop的主要应用场景包括大数据存储、处理和分析,特别是在需要处理海量数据的互联网和企业环境中。它被广泛用于日志分析、数据挖掘、机器学习、图像处理等领域。Hadoop的生态系统还包括许多相关项目,如Hive、HBase、Spark等,为大数据处理提供了丰富的工具和技术。

2024-02-01 00:06:45 853

原创 Kafka常见指令及监控程序介绍

kafka在流数据、IO削峰上非常有用,以下对于这款程序,做一些常见指令介绍。下文使用–bootstrap-server 10.0.0.102:9092,10.0.0.103:9092,10.0.0.104:9092需自行填写各自对应的集群IP和kafka的端口。该写法 等同。

2024-01-21 00:48:46 1171

原创 kafka简单介绍和代码示例

在大数据领域开发者常常会听到MQ这个术语,该术语便是消息队列的意思,Kafka是分布式的发布—订阅消息系统。它最初由LinkedIn(领英)公司发布,使用Scala语言编写,与2010年12月份开源,成为Apache的顶级项目。Kafka是一个高吞吐量的、持久性的、分布式发布订阅消息系统。它主要用于处理活跃的数据(登录、浏览、点击、分享、喜欢等用户行为产生的数据)。● 主题是生产者发布到Kafka集群的每条信息所属的类别,即Kafka是面向主题的,一个主题可以分布在多个节点上。

2024-01-16 23:06:53 1509 3

原创 POSTGRESQL中ETL、fdw的平行替换

该方法不仅可以应用到数据库对数据库之间,也可以应到,数据库对文件路径下。在postgresql嵌入python代码 其实可以替换掉一些中间件的使用。可控性,定制性也会更强。

2024-01-13 19:24:20 460

原创 了解spark计算模型

在集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(resilient distributed dataset,RDD),它是逻辑集中的实体,在集群中的多台机器上进行了数据分区。通过对多台机器上不同RDD分区的控制,就能够减少机器之间的数据重排(datashuffling)。Spark提供了“partitionBy”运算符,能够通过集群中多台机器之间对原始RDD进行数据再分配来创建一个新的RDD。RDD是Spark的核心数据结构,通过RDD的依赖关系形成Spark的调度顺序。

2023-12-24 17:42:20 484

原创 Spark Shell的简单使用

Spark shell是一个特别适合快速开发Spark原型程序的工具,可以帮助我们熟悉Scala语言。即使你对Scala不熟悉,仍然可以使用这个工具。Spark shell使得用户可以和Spark集群交互,提交查询,这便于调试,也便于初学者使用Spark。格式:spark-shell spark://host:port, 可以进入spark集群的任意一个节点默认情况是进入到一个scala语言环境的一个交互窗口。

2023-12-22 00:55:32 662

原创 spark介绍及简单使用

Spark是由加州大学伯克利分校AMPLab(AMP实验室)开发的开源大数据处理框架。起初,Hadoop MapReduce是大数据处理的主流框架,但其存在一些限制,如不适合迭代算法、高延迟等。为了解决这些问题,Spark在2010年推出,提供了高效的内存计算和更灵活的数据处理方式。

2023-12-17 02:26:46 412

原创 线性回归在数据库中的应用

今天看到微信群有人问,如何知道数据库一年的磁盘增量?如果没有研究过统计学,IT人员对于这个问题就只能靠经验了去断定了。没经验的往往都是回复扩容越大越好。当然未来的事情我们是无法预料的。本博主就通过简单的线性回归做一个计算,算出一年数据库的磁盘增量的大小和概率。

2023-12-15 15:00:06 98

原创 基于hadoop下的spark安装

Spark主要⽤于⼤数据的并⾏计算,⽽Hadoop在企业主要⽤于⼤数据的存储(⽐如HDFSHive和HBase 等),以及资源调度(Yarn但是也有很多公司也在使⽤MR2进⾏离线计算的开发。Spark + Hadoop在当前自建平台技术中,是离线计算任务开发的主流组合方式。数据存储:HDFS资源调度:Yarn数据计算:Spark或MapReduce,取决于具体的企业需求场景Spark提供了Spark CoreSpark SQL。

2023-12-10 23:54:23 1051

原创 postgresql自带指令命令系列三

在安装postgresql数据库的时候会需要设置一个关于postgresql数据库的PATH变量export PATH=/home/postgres/pg/bin:$PATH,该变量会指向postgresql安装路径下的bin目录。这个安装目录和我们在进行编译的时候./configure --prefix= [指定安装目录] 中的prefix参数设置相关。--bindir=DIR 参数可以指定bin目录的具体存放路径。

2023-12-09 20:04:39 390 1

原创 Finereport基于linux的简单安装(单节点)

本文以单节点简单部署为例,不适用企业级高可用部署策略。FineReport的运行依赖于Tomcat ,Tomcat 是免费且性能相对稳定的 Web 应用服务器,也可以充当JSP容器。它是一个用于运行Java Servlet和JavaServer Pages(JSP)的Web服务器。Tomcat本身并不包含完整的JDK,但它需要在运行时依赖于JDK。在安装和配置Tomcat之前,确保已经安装了JDK。

2023-12-09 02:20:30 308

原创 postgresql自带指令命令系列二

在安装postgresql数据库的时候会需要设置一个关于postgresql数据库的PATH变量export PATH=/home/postgres/pg/bin:$PATH,该变量会指向postgresql安装路径下的bin目录。这个安装目录和我们在进行编译的时候./configure --prefix= [指定安装目录] 中的prefix参数设置相关。--bindir=DIR 参数可以指定bin目录的具体存放路径。

2023-12-06 20:32:12 185

原创 postgresql自带指令命令系列一

在安装postgresql数据库的时候会需要设置一个关于postgresql数据库的PATH变量export PATH=/home/postgres/pg/bin:$PATH,该变量会指向postgresql安装路径下的bin目录。这个安装目录和我们在进行编译的时候./configure --prefix= [指定安装目录] 中的prefix参数设置相关。--bindir=DIR 参数可以指定bin目录的具体存放路径。

2023-12-05 19:28:24 321

原创 基于hadoop下的Kafka分布式安装

Kafka是一种分布式流处理平台,它具有高吞吐量、可扩展性、可靠性、实时性和灵活性等优点。它能够支持每秒数百万条消息的传输,并且可以通过增加节点来增加吞吐量和存储容量。Kafka通过将数据复制到多个节点来实现数据冗余和高可用性,即使某个节点故障,也可以保证数据不会丢失。它能够快速地处理和传输数据,支持实时数据的处理和分析。此外,Kafka可以与各种不同的数据处理和分析工具集成,包括流处理、批处理、数据挖掘等等。Kafka的优点包括高吞吐量、可扩展性、可靠性、实时性和灵活性。

2023-12-03 19:50:20 426

原创 基于hadoop下的hbase安装

HBase是一个分布式的、面向列的开源数据库,该技术来源于Fay Chang所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

2023-12-02 00:42:03 233

原创 Findreport中框架图使用的注意事项

在框架图的应用中,一些表达上下游关系的数据非常适合用于做链路图相关的报表。可以展示成雪花图,普通架构图。但是在实际操作中有几点关于数据的注意事项需要留意。

2023-11-29 21:05:38 190

原创 数据库中生成列的对比

生成列(虚拟列):在实际开发中,相对一个历史数据的表增加一个字段,增加下游报表,数据分析的可用性。常见的方法就是删表重建,或者使用ADD column 语法。如果是一个历史表,删掉表数据是有风险的,历史的数据不一定还能再复现。第二中ADD COLUMN语法,随然你可以再存储中增加这个字段的处理,但是先前的数据行并不会有数据。那意义也就不大了。由此postgresql衍生出生成列的概念。生成列(虚拟列)目前仅仅支持,现有字段的值衍生计算后的值作为生成列的值。不支持子查询、表关联相关的运算。

2023-11-28 19:12:58 189

原创 hadoop安装

Hadoop是一个开源的分布式存储和计算框架,最初由Apache软件基金会开发。它的发展背景可以追溯到Google的MapReduce和Google File System(GFS)的论文,这两篇论文启发了Hadoop的设计。Hadoop的主要应用场景包括大数据存储、处理和分析,特别是在需要处理海量数据的互联网和企业环境中。它被广泛用于日志分析、数据挖掘、机器学习、图像处理等领域。Hadoop的生态系统还包括许多相关项目,如Hive、HBase、Spark等,为大数据处理提供了丰富的工具和技术。

2023-11-28 10:05:54 1053

原创 postgresql数据库中update使用的坑

在数据库中进行增删改查比较常见,经常会用到update的使用。但是在近期发现update在oracle和postgresql使用却有一些隐形区别,oracle 在执行update语句的时候set 后面必须跟着1对1的数据关联而postgresql数据库却可以一对多,这就导致数据在被新的时候出现不确定性。

2023-11-23 16:52:59 413

原创 oracle数据库巡检常见脚本-系列三

作为数据库管理员(DBA),定期进行数据库的日常巡检是非常重要的。以下是一些原因:保证系统的稳定性:通过定期巡检,DBA可以发现并及时解决可能导致系统不稳定的问题,如性能瓶颈、资源利用率过高或磁盘空间不足等。提高数据的安全性:巡检可以帮助DBA发现潜在的安全风险,例如未经授权的访问、数据泄露或其他安全漏洞。及时采取措施,可以防止这些风险演变成实际问题。避免数据丢失:DBA可以通过检查备份和恢复策略来确保数据的完整性,并确保在发生灾难时能够快速恢复业务运营。

2023-11-23 16:07:14 208

原创 oracle数据库巡检常见脚本-系列二

作为数据库管理员(DBA),定期进行数据库的日常巡检是非常重要的。以下是一些原因:保证系统的稳定性:通过定期巡检,DBA可以发现并及时解决可能导致系统不稳定的问题,如性能瓶颈、资源利用率过高或磁盘空间不足等。提高数据的安全性:巡检可以帮助DBA发现潜在的安全风险,例如未经授权的访问、数据泄露或其他安全漏洞。及时采取措施,可以防止这些风险演变成实际问题。避免数据丢失:DBA可以通过检查备份和恢复策略来确保数据的完整性,并确保在发生灾难时能够快速恢复业务运营。

2023-11-23 11:03:59 494

原创 oracle数据库常见巡检脚本-系列一

作为数据库管理员(DBA),定期进行数据库的日常巡检是非常重要的。以下是一些原因:保证系统的稳定性:通过定期巡检,DBA可以发现并及时解决可能导致系统不稳定的问题,如性能瓶颈、资源利用率过高或磁盘空间不足等。提高数据的安全性:巡检可以帮助DBA发现潜在的安全风险,例如未经授权的访问、数据泄露或其他安全漏洞。及时采取措施,可以防止这些风险演变成实际问题。避免数据丢失:DBA可以通过检查备份和恢复策略来确保数据的完整性,并确保在发生灾难时能够快速恢复业务运营。

2023-11-22 19:20:23 315

原创 pg_bouncer在使用中的坑勿踩

前面文章说过关于pg_bouncer的安装讲解,这里讲一下在使用中的坑,在进行配置的时候需要注意。

2023-11-15 23:05:17 622

原创 zookeeper的安装部署

编写单机版的应用比较简单,但是编写分布式应用就比较困难,主要原因在于会出现部分失败。什么是部分失败呢?当一条消息在网络中的两个节点之间传输时,如果出现网络错误,发送者无法知道接收者是否已经收到这条消息,接收者可能在出现网络错误之前就已经收到这条消息,也有可能没有收到,又或者接收者的进程已经“死掉”。发送者只能重新连接接收者并发送咨询请求才能获知之前的信息接收者是否收到。简而言之,部分失败就是不知道一个操作是否已经失败。

2023-11-15 15:48:44 291

原创 Linux SSH免密登录

SSH(Secure shell)是可以在应用程序中提供安全通信的一个协议,通过SSH可以安全地进行网络数据传输,它的主要原理是利用非对称加密体系,对所有待传输的数据进行加密,保证数据在传输时不被恶意破坏、泄露或篡改。但是大数据集群(主要指的是Hadoop集群,可用Hadoop代指)使用SSH主要不是用来进行数据传输的,而是在Hadoop集群启动或停止时,主节点需要通过SSH协议将从节点上的进程启动或停止。

2023-11-13 20:32:07 599

原创 postgresql数据库优化

默认情况下track_io_timing参数是关闭的,所以“读数据块的总时间”和“写数据块的总时间”这两项没有数据。这里需要重点关注swap大类中的si和so,如果这两项中有大于0的数值,说明发生了SWAP交换,系统的内存不足了。各CPU共享相同的物理内存,访问内存任何地址所需的时间相同,因此程序设计较为简单。·优点:多CPU模块,每个CPU模块具有独立的本地内存(快),但访问其他CPU内存(慢),硬件实现成本低。·缺点:因多CPU无主次关系,需要解决内存访问冲突,所以硬件实现成本高。·缺点:数据重分布;

2023-11-13 14:31:50 871

原创 postgresql实现job的六种方法

在postgresql数据库中并没有想oracle那样的job功能,要想实现job调度,就需要借助于第三方。本人更为推荐kettle,pgagent这样的图形化界面,对于开发更为友好优势劣势Linux 定时任务(crontab)简单易用,是 Linux 系统本身提供的标准定时任务工具。可以通过编辑 crontab 文件直接设置作业调度规则。可以使用各种 shell 脚本或命令来执行作业自此SQL以外的shell脚本,拓展性较强数据库无需重启。

2023-11-12 15:16:57 1260

原创 使用SSH ,让windows和linux互通

不同操作系统直接通过SSH通信,并远程操作

2023-11-06 17:04:37 457

原创 java基础练习(使用java实现跨库数据调度ETL)

本文写一篇关于java库与库之间的数据传输,现实生产中可能是通过其他方式完成,在没有架构的基础上使用java实现跨库的数据传送,非常不便利。但是作为练习我觉得确实非常有用,涉及的java知识点相对较多。本文以一个实列讲解,一个思考留给学习的粉丝就行后续实操锻炼。

2023-11-03 20:09:55 747

原创 in ,exists,any在数据库中数据失真的问题

别再乱用in , any ,exists了。本文介绍in , any ,exists Oracle/mysql/postgresql在数据库中发生数据失真的情况

2023-10-26 15:22:31 111

原创 PG轻量化连接池pgbouncer使用教程

POSTGRESQL轻量化连接池pgbouncer.读写分离的应用管理。

2023-10-24 15:08:20 402

原创 Java基础练习(矩阵的加减乘除运算)

对于有了解,但是了解不深的同学,学习Java总是感觉一看就会,一些就废。往往需要一些实操练习,来夯实我们的学习结果。九九乘法表和计算器都是在编程学习领域比较经典的案例。本文为大家讲解一下两个基础//java 在矩阵运算中的实现// 生成一个A矩阵System.out.println("矩阵名称为:Lists");System.out.println("以下打印的是a1,a2,a3,a4,a5,a6,a7,a8,a9的对应值");

2023-10-19 23:25:13 364

原创 java基础练习,九九乘法表(java版),计算器

Java初学实操练习

2023-10-16 22:34:46 207

原创 oracle、mysql、postgresql数据库的几种表关联方法

进来国产数据信创政策下,很多数据库都在做迁移,学会这几种表关联关系,可以对比数据库之间的数据差异,方便更好的排错。

2023-10-10 14:05:38 770

原创 Oracle、postgresql递归语法

虽然这两种方法的语法有所不同,但它们的基本思想是相同的:定义一个起点,然后定义一个递归关系来遍历数据。这个查询由两部分组成,第一部分是基础查询,它定义了递归查询的起点。在数据库中,递归查询是一种特殊的查询,它可以用来查询具有层次结构的数据,例如员工和他们的经理之间的关系,或者目录和子目录之间的关系。例如,可以使用LEVEL来缩进层次结构的输出。这个查询由两部分组成,第一部分是基础查询,它定义了递归查询的起点。在使用这些关键字时,需要注意的是,递归查询可能会导致无限循环,特别是当数据中存在循环引用时。

2023-10-09 17:51:36 211

Spark理论和PySpark.pdf

spark\ sparksql spark core \spark streaming hadoop 流数据,流,实时离线

2024-01-22

PySpark数据分析和模型算法实战.pdf

hadoop,spark ,spark sql ,spark streaming,spark core

2024-01-22

oracle/postgresql中whlie循环以及自链接的应用例题

样本数据

2023-07-02

列值分区样本数据,列值分区样本数据

列值分区样本数据

2023-06-30

声明分区表数据以及建表语句

声明式分区表 数据

2023-06-17

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除