自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(47)
  • 收藏
  • 关注

原创 NFS-网络文件系统

【代码】NFS-网络文件系统。

2025-04-29 19:18:44 540

原创 Samba-系统集成

Samba是在Linux和UNIX系统上实现SMB协议的一个免费C/S软件,由服务器及客户端程序构成。SMB ( Server Messages Block,信息服务块 )是一种在局域网上共享文件和打印机的一种通信协议,它为局域网内的不同计算机之间提供文件及打印机等资源的共享服务。SMB协议是客户机/服务器型协议,客户机通过该协议可以访问服务器上的共享文件系统、打印机及其他。

2025-04-29 19:18:12 357

原创 FTP-网络文件服务器

FTP (File transfer protocol)是TCP/IP 协议组中的协议之一 ,是一个TCP协议。功能:在服务器与客户端之间进行文件的传输。FTP就是实现两台计算机之间的拷贝。从远程计算机拷贝文件至自己的计算机上,称之为“下载 (download)”文件将文件从自己计算机中拷贝至远程计算机上,则称之为“上传(upload)”文件这个古老的协议使用的是明码传输方式,且过去有相当多的安全危机历史。

2025-04-28 15:00:53 788

原创 域名系统DNS

DNS是一个域名系统,在互联网环境中为域名和IP地址相互映射的一个分布式数据库 , 能够使用户更方便的访问互联网,而不用去记住能够被机器直接读取的IP数串。类似于生活中的114服务,可以通过人名找到电话号码,也可以通过电话号码找到人名(生活中没有那么准确的原因是人名有重名,而域名是全世界唯一的)。ONS协议运行在UDP协议之上,使用端口号53应用场景:需要域名解析的地方。

2025-04-27 22:08:52 738

原创 DHCP配置文件详解

默认情况下,dhcp服务并没有提供配置文件,只是给提供了一个demo,存放在/usr/share/doc/dhcp*/自录下.我们将demo文件拷贝到/etc/dhcp目录下,并且命名为dhcpd.conf。当一个客户端试图获得一个不是该DHCP服务器分 配的IP信息, DHCP将发送一个拒绝消息, 而不会等待请求超时。网关为rtr-239-0-1.example.org, rtr-239-0-2.example.org。DNS全局选项,指定DNS服务器的地址,可以是IP,也可以是域名。

2025-04-26 13:29:00 1059

原创 FineBI安装部署

FineBI是帆软软件有限公司推出的一款商业智能(Business Intelligence)产品,其定位是一个大数据自助分析工具,旨在帮助企业的业务人员充分了解和利用他们的数据。

2025-01-07 11:27:55 1489

原创 Flume安装部署

(5)拷贝flume/conf下的flume-env.sh.template文件并更名为flume-env.sh,配置flume-env.sh文件。链接: https://pan.baidu.com/s/1JJRK5nOqk5Z4-uUFC5l9qA?(1)将apache-flume-1.9.0-bin.tar.gz上传到linux的/opt/software目录下。(2)解压apache-flume-1.9.0-bin.tar.gz到/opt/module/目录下。Flume安装包地址。

2024-07-28 18:26:31 390

原创 C++数据结构学习(顺序表)

【代码】C++数据结构学习(顺序表)

2024-07-28 09:47:36 1079

原创 hadoop集群安装部署

准备工作:需要3台虚拟机,每台虚拟机搭建好JDK并配置环境变量。

2024-07-26 19:19:38 384

原创 在线教育数仓项目(数据采集部分1)

普通页面日志结构如下,每条日志包含了,当前页面的页面信息,所有事件(动作)、所有曝光信息以及错误信息。除此之外,还包含了一系列公共信息,包括设备信息,地理位置,应用信息等,即下边的common字段。比如用户在网站中登录、下单、支付等过程中,需要和网站后台数据库进行增删改查交互,产生的数据就是业务数据。方式一,在离开该页面时,上传在这个页面产生的所有数据(页面、事件、曝光、错误等)。Linux的环境变量可在多个文件中配置,如/etc/profile,/etc/profile.d/*.sh,

2024-07-26 19:12:36 2224

原创 Shell学习——Shell test命令

Shell中的 test 命令用于检查某个条件是否成立,它可以进行数值、字符和文件三个方面的测试。

2024-07-23 17:55:36 317

原创 Apache Filnk----入门

无界数据流:有定义流的开始,但没有定义流的结束;它们会无休止的产生数据:无界流的数据必须持续处理,即数据被摄取后需要立刻处理我们不能等到所有数据都到达再处理,因为输入是无限的。有界数据流:有定义流的开始,也有定义流的结束:有界流可以在摄取所有数据后再进行计算:有界流所有数据可以被排序,所以并不需要有序摄取:有界流处理通常被称为批处理。

2024-07-23 17:54:54 1019

原创 大数据Spark--核心编程

/ 累加器 : wordcount// 创建累加器对象// 向spark进行注册word => {// 数据的累加 (使用累加器)// 获取累加器的结果sc.stop()/*** 自定义累加器 : wordcount* 1、继承AccumulatorV2, 定义泛型* IN : 累加器输入的数据类型 String* OUT : 累加器返回的数据类型 Map* 2、重写方法*/// 判断是否为初始状态// 获取累加器需要计算的值// 合并累加器// 累加器结果wcMap。

2024-07-10 17:46:43 1626

原创 Shell学习——Shell printf命令

printf 使用引用文本或空格分隔的参数,外面可以在 printf 中使用格式化字符串,还可以制定字符串的宽度、左右对齐方式等。默认的 printf 不会像 echo 自动添加换行符,我们可以手动添加 \n。格式说明符由 % 字符开始,后跟一个或多个字符,用于指定输出的格式。

2024-07-10 17:46:20 248

原创 Presto报错:[Presto requires an Oracle or OpenJDK JVM (found Red Hat, Inc.)]

启动Presto时,报错。

2024-07-09 16:14:54 242

原创 Shell学习——Shell echo命令

read 命令从标准输入中读取一行,并把输入行的每个字段的值指定给 shell 变量。注意: 这里使用的是反引号 `, 而不是单引号 '。7.原样输出字符串,不进行转义或取变量(用单引号)同样,双引号也可以省略。6.显示结果定向至文件。8.显示命令执行结果。

2024-07-09 16:12:29 292

原创 Shell学习——Shell运算符

【代码】Shell学习——Shell运算符。

2024-07-09 16:11:57 290

原创 Shell学习——Shell变量

在 Shell 中,用括号来表示数组,数组元素用"空格"符号分割开。数组名=(值1 值2 ... 值n)

2024-07-06 10:03:53 1197

原创 Shell学习——Shell数组

数组中可以存放多个值。Bash Shell 只支持一维数组(不支持多维数组),初始化时不需要定义数组大小(与 PHP 类似)。Bash 支持关联数组,可以使用任意的字符串、或者整数作为下标来访问数组元素。与大部分编程语言类似,数组元素的下标由 0 开始。关联数组的键是唯一的。

2024-07-06 10:03:08 370

原创 信息论与大数据安全知识点

大数据的数据源可以分为 结构化数据 、 非结构化数据 、 半结构化数据大数据生命周期分为 数据采集 、 数据传输 、 数据存储 、 数据分析与使用 四个阶段物联网 作为大数据量的第一来源,大数据采集的第一步是 数据清洗早期访问控制模型和技术在大数据应用场景下主要存在三方面问题:安全管理员的授权管理难度更大:大数据规模和增长速度导致安全管理员工作量大;大数据应用环境,使得安全管理员必须具备更多的领域知识来实施权限管理。严格的访问控制策略难以适用:访问需求无法预知;访问需求动态变化。

2024-06-19 21:40:35 1057

原创 大数据--Hadoop运行环境搭建(Linux虚拟机)

注意:yudan这一行不要直接放到root行下面,因为所有用户都属于wheel组,你先配置了yudan具有免密功能,但是程序执行到%wheel行时,该功能又被覆盖回需要密码。(3)注意:如果Linux安装的是最小系统版,还需要安装如下工具;④将桌面hosts文件覆盖C:\Windows\System32\drivers\etc路径hosts文件。(2)查看Linux虚拟机的虚拟网络编辑器,编辑->虚拟网络编辑器->VMnet8。(2)如果操作系统是window10,先拷贝出来,修改保存以后,再覆盖即可。

2024-05-07 21:18:28 1438

原创 Java算法--队列

(2) 若尾指针 rear 小于队列的最大下标 maxSize-1,则将数据存入 rear 所指的数组元素中,否则无法存入数据。rear == maxSize - 1[队列满](1) 尾索引的下一个为头索引时表示队列满,即将队列容量空出一个作为约定,这个在做判断队列满的时候需要注意 (rear + 1) % maxSize == front 满](1)将尾指针往后移:rear+1 , 当 front == rear 【空】(2) rear == front [空]

2024-04-27 20:03:39 365

原创 Java算法--二分查找

二分查找(Binary Search)是一种在有序数组中查找某一特定元素的搜索算法。搜索过程从数组的中间元素开始,如果中间元素正好是要查找的元素,则搜索过程结束;如果某一特定元素大于或者小于中间元素,则在数组大于或小于中间元素的那一半中查找,而且跟开始一样从中间元素开始比较。如果在某一步骤数组为空,则代表找不到。这种搜索算法每一次比较都使搜索范围缩小一半,因此其时间复杂度是O(log n),n是数组的元素数量。二分查找的效率远高于线性查找(时间复杂度为O(n))。

2024-04-25 21:50:46 385

原创 SparkSQL--介绍

但是,随着Spark的发展,对于野心勃勃的Spark团队来说,Shark对于Hive的太多依赖(如采用Hive的语法解析器、查询优化器等等),制约了Spark的One Stack Rule Them All的既定方针,制约了Spark各个组件的相互集成,所以提出了SparkSQL项目。DataSet 是分布式数据集合。其中Shark是伯克利实验室Spark生态环境的组件之一,是基于Hive所开发的工具,它修改了下图所示的右下角的内存管理、物理计划、执行三个模块,并使之能运行在Spark引擎上。

2024-04-25 21:50:22 851

原创 大数据Spark--运行环境和架构

Spark 集群的独立部署环境中,不需要依赖其他的资源调度框架,自身就实现了资源调度的功能,所以环境中还有其他两个核心组件:Master和Worker,这里的Master是一个进程,主要负责资源的调度和分配,并进行集群的监控等职责,类似于Yarn环境中的RM, 而Worker 呢,也是进程,一个Worker运行在集群中的一台服务器上,由Master分配资源对数据进行并行的处理和计算,类似于Yarn环境中NM。这里所谓的有向无环图,并不是真正意义的图形,而是由Spark程序直接映射成的数据流的高级抽象模型。

2024-04-21 22:14:12 1280 2

原创 大数据Hive--企业级调优

Explain呈现的执行计划,由一系列Stage组成,这一系列Stage具有依赖关系,每个Stage对应一个MapReduce Job,或者一个文件系统操作等。

2024-04-19 19:20:56 1021

原创 监控系统Prometheus--与第三方框架集成

邮件通知常会出现接收不及时的问题,为确保通知信息被及时接收,可通过配置Prometheus 或者Grafana 与第三方平台告警平台(例如睿象云)集成,进而通过第三方平台提供的多种告警媒介(例如电话,短信)等发送告警信息。手动一个个添加Dashboard比较繁琐,Grafana社区鼓励用户分享Dashboard,通过https://grafana.com/dashboards网站,可以找到大量可直接使用的Dashboard模板。通知策略,可以配置被分派人接收告警的通知方式,通知时间,通知延时等等。

2024-04-14 19:28:16 1357

原创 监控系统Prometheus--PromQL

Prometheus 通过指标名称(metrics name)以及对应的一组标签(labelset)唯一定义一条时间序列。指标名称反映了监控样本的基本标识,而 label 则在这个基本特征上为采集到的数据提供了多种特征维度。用户可以基于这些特征维度从而产生新的计算后的一条时间序列。PromQL 是 Prometheus 内置的数据查询语言,其提供对时间序列数据丰富的查询,聚合以及逻辑运算能力的支持。并且被广泛应用在 Prometheus 的日常应用当中,包括对数据查询、可视化、告警处理当中。

2024-03-29 10:32:40 1170 1

原创 大数据Spark--入门

Spark 所需资料链接:https://pan.baidu.com/s/12iaW68vriL6i-xI1kmr0_g?pwd=m4zc提取码:m4zc。

2024-03-24 18:14:42 1515 1

原创 监控系统Prometheus--入门

Prometheus 安装包下载链接:https://pan.baidu.com/s/1a3cUS3VF8NQyHF6xO7LKBQ?pwd=hxy2提取码:hxy2Prometheus 受启发于Google的Brogmon监控系统(相似的Kubernetes是从Google的Brog系统演变而来),从2012年开始由前Google工程师在Soundcloud以开源软件的形式进行研发,并且于2015年早期对外发布早期版本。

2024-03-23 15:12:09 1196 1

原创 大数据Hive--文件格式和压缩

压缩格式算法文件扩展名是否可切分DEFLATEDEFLATE.deflate否GzipDEFLATE.gz否bzip2bzip2.bz2是LZOLZO.lzo是SnappySnappy.snappy否为了支持多种压缩/解压缩算法,Hadoop引入了编码/解码器,如下表所示:Hadoop查看支持压缩的方式hadoop checknative。Hadoop在driver端设置压缩。压缩格式对应的编码/解码器DEFLATEgzipbzip2LZO。

2024-02-28 22:34:17 1277 1

原创 大数据Hive--分区表和分桶表

再比如,若分区表为外部表,用户执行drop partition命令后,分区元数据会被删除,而HDFS的分区路径不会被删除,同样会导致Hive的元数据和HDFS的分区路径不一致。对于一张表或者分区,Hive 可以进一步组织成桶,也就是更为细粒度的数据范围划分,分区针对的是数据的存储路径,分桶针对的是数据文件。分桶表的基本原理是,首先为每行数据计算一个指定字段的数据的hash值,然后模以一个指定的分桶数,最后将取模运算结果相同的行,写入同一个文件中,这个文件就称为一个分桶(bucket)。

2024-02-25 14:16:39 2204 1

原创 大数据Kafka--概述

目前企业中比较常见的消息队列产品主要有 Kafka、ActiveMQ、RabbitMQ、RocketMQ等。在大数据场景主要采用 Kafka作为消息队列。在 JavaEE开发中主要采用ActiveMQ、RabbitMQ、RocketMQ。

2024-02-22 21:12:29 1031 1

原创 大数据Flume--入门

Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。

2024-02-10 22:38:29 1840 1

原创 大数据Zookeeper--案例

比如说"进程1"在使用该资源的时候,会先去获得锁,"进程1"获得锁以后会对该资源保持独占,这样其他进程就无法访问该资源,"进程1"用完该资源以后就将锁释放掉,让其他进程来获得锁,那么通过这个锁机制,我们就能保证了分布式系统中多个进程能够有序的访问该临界资源。2)Curator是一个专门解决分布式锁的框架,解决了原生Java API开发分布式遇到的问题。(1)启动DistributeClient 客户端(如果已经启动过,不需要重启)(1)会话连接是异步的,需要自己去处理。2)在Idea上操作增加减少服务器。

2024-02-05 17:19:08 1922 1

原创 大数据Zookeeper--集群操作

客户端注册监听它关心的目录节点,当目录节点发生变化(数据改变、节点删除、子目录节点增加删除)时,ZooKeeper会通知客户端。(1)重命名/opt/module/zookeeper-3.5.7/conf 这个目录下的 zoo_sample.cfg 为 zoo.cfg。(2)在/opt/module/zookeeper-3.5.7/zkData 目录下创建一个 myid 的文件。(1)在/opt/module/zookeeper-3.5.7/这个目录下创建 zkData。如果原节点下已有2个节点,则再排。

2024-02-03 21:20:50 1205 2

原创 大数据Zookeeper--入门

Zookeeper 是一个开源的分布式的,为分布式框架提供协调服务的Apache项目。Zookeeper = 文件系统 + 通知机制。

2024-02-01 22:10:34 1275 1

原创 大数据Hive--函数

Hive会将常用的逻辑封装成函数给用户进行使用,类似于Java中的函数。好处:避免用户反复写逻辑,可以直接拿来使用。Hive提供了大量的内置函数,按照其特点可大致分为如下几类:单行函数、聚合函数、炸裂函数、窗口函数。以下命令可用于查询所有内置函数的相关信息:1)查看系统内置函数2)查看内置函数用法3)查看内置函数详细信息1)表结构moviecategory《疑犯追踪》悬疑,动作,科幻,剧情悬疑,警匪,动作,心理,剧情《战狼2》战争,动作,灾难2)建表语句。

2024-01-14 16:13:34 975 1

原创 Java数据结构--堆

堆顶元素是二叉树的根节点,即列表首元素。“从顶至底堆化”的操作方向与“从底至顶堆化”相反,我们将根节点的值与其两个子节点的值进行比较,将最大的子节点与根节点交换。如图所示,给定索引 i,其左子节点索引为 2i+1 ,右子节点索引为 2i+2,父节点索引为 (i-1)/2(向下整除)。然后继续执行此操作,从底至顶修复堆中的各个节点,直至越过根节点或遇到无须交换的节点时结束。需要指出的是,许多编程语言提供的是「优先队列 priority queue」,这是一种抽象数据结构,定义为具有优先级排序的队列。

2024-01-01 16:40:00 2028

原创 大数据Hive--查询

本例中会首先启动一个MapReduce job对表e和表d进行连接操作,然后会再启动一个MapReduce job将第一个MapReduce job的输出和表l进行连接操作。union和union all都是上下拼接sql的结果,这点是和join有区别的,join是左右关联,union和union all是上下拼接。在很多情况下,并不需要全局排序,此时可以使用Sort by。对于distribute by进行测试,一定要分配多reduce进行处理,否则无法看到distribute by的效果。

2023-12-27 22:02:24 1301 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除