自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(53)
  • 问答 (1)
  • 收藏
  • 关注

原创 【RabbitMQ基础】-RabbitMQ:初识MQ[1]

RabbitMQ (高性能的异步通讯组件)RabbitMQ是一个开源的消息队列中间件,它实现了高级消息队列协议(AMQP)标准。它是一种可靠、可扩展、灵活和可插拔的解决方案,用于处理异步消息传递和事件驱动系统。RabbitMQ提供了可靠的消息传递机制,并支持多种消息传递模式,如点对点、发布/订阅和请求/响应。它可以用于构建分布式系统、微服务架构、大规模数据处理等场景。RabbitMQ提供了丰富的功能,如消息持久化、消息路由、消息优先级、消息延迟等,可以满足各种复杂的消息传递需求。

2024-06-07 17:50:02 222

原创 【Linux】-Flink分布式内存计算集群部署[21]

这里使用的端口8081与前一章节spark使用的端口一致,需要关闭spark才能使用flink。Flink在大数据体系同样是明星产品,作为新一代的综合计算引擎,支持离线计算和实时计算。Flink同spark一样,是一款分布式内存计算引擎,可以支撑海量数据的分布式计算。2、【node1】修改配置文件,conf/flink-conf.yaml。3、【node1】 修改配置文件,conf/slaves。5、【node2、node3】构建软链接。6、【node1】启动flink。至此,Flink就部署完毕啦。

2024-05-23 21:00:50 589 1

原创 【Linux】-Spark分布式内存计算集群部署[20]

Spark是一款分布式内存计算引擎,可以支持海量数据的分布式计算。Spark在大数据体系是明星产品,作为最新一代的综合计算引擎,支持离线计算和实时计算。在大数据邻域广泛应用,是目前世界上使用最多的大数据分布式计算引擎。将基于前面构建的Hadoop集群,部署Spark Standalone集群。

2024-05-23 19:50:34 486

原创 【Linux】- HBase集群部署 [19]

8、【node1、node2、node3】,配置环境变量,在/etc/profile目录下。4、【node1执行】 修改配置文件,修改conf/hbase-site.xml文件。5、【node1执行】 修改配置文件,修改conf/regionservers文件。3、【node1执行】修改配置文件,修改conf/hbase-env.sh文件。本次部署分别在node1,node2,node3 三台服务器部署。6、【node1执行】,分发hbase到其他服务器。7、【node2、node3执行】配置软链接。

2024-05-23 18:49:18 469 1

原创 【Linux】-Kafka集群安装部署[18]

Apache Kafka是一款。同RabbitMQ一样,Kafka也是消息队列。不过RabbitMQ多用于后端系统,因其更加专注于消息的延迟和容错。Kafka多用于大数据体系,因其更加专注于数据的吞吐能力。Kafka多数都是运行在分布式(集群化)模式下,所以将以3台服务器,来完成Kafka集群的安装部署。

2024-05-20 19:47:19 274

原创 【Linux】-Zookeeper安装部署[17]

除了为Hadoop和Hbase提供协调服务外,ZooKeeper也被其他软件采用作为其分布式状态一致性的依赖,比如Kafka,又或者一些软件项目中,也经常能见到ZooKeeper作为一致性协调服务存在。10、【在node1、node2、node3上分别执行】启动zookeeper。11、【在node1、node2、node3上分别执行】检查zookeeper。7、【node1上操作】 将zookeeper 复制到node2和node3。2、【node1上操作】下载ZooKeeper安装包,并解压。

2024-05-20 17:07:25 668

原创 【Linux】-Elasticsearch安装部署[16]

全文搜索属于最常见的要求,开源的Elasticsearch(以下简称es)是目前全文搜索引擎的首选。它可以快速的储存、搜索和分析海量数据。维基百科、Stack Overflow、Github 都采用它。es在企业内同样是一款应用非常广泛的搜索引擎服务。通过浏览器打开http://虚拟机ip:9200。很多服务中的搜索功能,都是基于es来实现的。可通过:set nu 显示行数。

2024-05-19 21:22:15 227

原创 【Linux】-Redis安装部署[15]

redis是一个开源、使用C语言编写的、支持网络互交的、可基于内存也可持久化的Key-Value数据库。redis的特点就是:快,可以基于内存存储数据并提供超低延迟、超快的检索速度,一般用于在系统中提供快速缓存的能力。

2024-05-19 20:42:17 182

原创 【Linux】- RabbitMQ安装部署 [14]

RabbitMQ一款知名的开源消息队列系统,为企业提供消息的发布、订阅、点对点传输等消息服务。RabbitMQ在企业开发中十分常见。

2024-05-19 20:23:03 185

原创 【Linux】-Nginx安装部署[13]

Nginx (engine x )是一个高性能的HTTP和反向代理web服务器,同时也提供了IMAP/POP3/SMTP服务。同Tomcat一样,Nginx可以托管用户编写的web应用程序成为可访问的网页服务,同时也可以作为流量代理服务器,控制流量的中转。Nginx在web开发领域,基本上也是必备组件之一。

2024-05-19 00:27:29 319

原创 【Linux】-Tomcat安装部署[12]

Tomcat是由Apache开发的一个Servlet容器,实现了对Servlet和JSP的支持,并提供了作为Web服务器的一些特有功能,如Tomcat管理和控制平台、安全域管理和Tomcat阀等。简单来说,Tomcat是一个web应用程序的托管平台,可以让用户编写的web应用程序,被Tomcat所托管,并提供网站服务。

2024-05-18 22:31:27 989

原创 【Linux】- MySQL 8.0 版本在CentOS系统安装[11]

mysql 8.0 版本的安装与前面章节的5.7版本的安装基本操作一样。

2024-05-17 15:04:19 420

原创 【Linux】- MySQL5.7版本在CentOS系统安装 [10]

MySQL数据库管理系统(后续简称MySQL),是一款知名的数据库系统,其特点是:轻量、简单、功能丰富。MySQL数据库可谓是软件行业的明星产品,无论是后端开发、大数据、AI、运维】测试等各类岗位,基本都会和MySQL打交道。

2024-05-17 13:59:20 763

原创 【Linux】-Linux文件的上传和下载、压缩和解压[9]

在Linux系统中,文件的上传和下载、压缩和解压是非常重要的操作。下面分别简述它们的重要性:文件的上传和下载:Linux系统是一个多用户的操作系统,多个用户可以同时访问同一台服务器。通过文件的上传和下载,用户可以方便地在本地计算机与远程服务器之间进行文件的传输。这对于用户来说非常重要,可以快速地备份和恢复文件,共享文件给其他用户,或者从远程服务器下载所需的文件。文件的压缩和解压:在Linux系统中,文件的压缩和解压是非常常见的操作。

2024-05-16 23:05:01 765

原创 【Linux】- Linux环境变量[8]

环境变量是操作系统(Windows、Linux、Mac)在运行的时候,记录的一些关键性信息,用以辅助系统运行。在Linux系统中执行:env命令即可查看当前系统中记录的环境变量。环境变量记录的信息,除了给操作系统自己使用外,如果我们想要使用,也可以使用。就可以取得PATH这个环境变量的值,并通过echo语句输出出来。在Linux系统中,$符号被用于取”变量“的值。取得环境变量的值就可以通过。比如:echo $PATH。

2024-05-12 19:04:56 376 1

原创 【Linux】- 进程与主机状态监控[7]

程序运行在操作系统中,是被操作系统所管理的。为管理运行的程序,每一个程序在运行的时候,便被操作系统注册为系统中的一个:进程并会为每一个进程都分配一个独有的:进程ID(进程号)Windows系统任务管理器linux系统查看进程可以通过ps命令查看Linux系统中的进程信息列出全部进程的全部信息查看指定进程我们可以使用管道符配合grep来进行过滤,如:,即可准确的找到tail命令的信息过滤不仅仅过滤名称,进程号,用户id等等,都可以被grep过滤哦。

2024-05-12 17:19:05 1285

原创 【Linux】-网络请求和下载、端口[6]

1、ping命令可以通过ping命令,检查指定的网络服务器是否可联通状态2、wget命令wget是非交互式的文件下载器,可以在命令行内下载网络文件3、curl命令curl可以发送网络请求,可用于:下载文件、获取信息等。

2024-05-11 22:02:49 1033

原创 【Linux】-IP地址、主机名配置[5]

是可以的,我们只需要在Windows系统的:C:\Windows\System32\drivers\etc\hosts文件中配置记录即可。原因1:办公电脑IP地址变化无所谓,但是我们要远程连接到Linux系统,如果IP地址经常变化我们就要频繁修改适配很麻烦。原因2:在刚刚我们配置了虚拟机IP地址和主机名映射,如果IP频繁更改,我们也需要频繁更新映射关系。每一台电脑除了对外联络地址(IP地址)以外,也可以有一个名字,称之为主机名。我们可以配置主机名映射,通过使用主机名来进行连接,不使用一长串的IP地址。

2024-05-11 18:59:29 1140

原创 【Linux】-Linux的实用操作:快捷键与软件安装操作、构建软连接、日期时区的设置[4]

将系统自带的localtime文件删除,并将/usr/share/zoneinfo/Asia/Shanghai文件链接为localtime文件即可。yum命令需要root权限,可以su切换到root,或使用sudo提权。yum:RPM包软件管理器,用于自动化安装配置Linux软件,并可以自动解决依赖问题。当然,除了内置的服务以外,部分第三方软件安装后也可以以systemctl进行控制。通过date查看的日期是不准确的,这是因为系统默认时区非中国的东八区。1、使用date命令本体,无选项,直接查看时间。

2024-05-11 16:46:59 1091 1

原创 【Linux】-Linux用户和权限与权限的修改[3]

无论是Windows、MacOS、Linux均采用多用户的管理模式进行权限管理。root用户拥有最大的系统操作权限,而普通用户在许多地方的权限是受限的。普通用户的权限,一般在其HOME目录内是不受限的一旦出了HOME目录,大多数地方,普通用户仅有只读和执行权限,无修改权限。

2024-05-09 22:15:25 1084

原创 【Linux】-Linux基础命令[2]

vi/vim是visual interface的简称,是Linux中最经典的文本编辑器,同图形化界面中的文本编辑器一样,vi是命令行下对文本文件进行编辑的绝佳选择。vim是vi的加强版本,兼容vi的所有指令,不仅能编辑文本,而且还具有shell程序编辑的功能,可以不同颜色的字体来辨别语法的正确性,极大方便了程序的设计和编辑性。当Linux终端打开的时候,会默认以用户的HOME目录作为当前的工作目录,我们可以通过cd命令,更改当前所在的工作目录。使用tail命令,可以查看文件尾部内容,跟踪文件的最新更改。

2024-05-08 15:32:18 839

原创 【Linux】-Linux命令入门[1]

可以看到,ls -a对比ls列出的内容更多了。

2024-05-07 13:49:33 231

原创 【Hadoop】--基于hadoop和hive实现聊天数据统计分析,构建聊天数据分析报表[17]

BI:Business Intelligence,商业智能。指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行分析以实现商业价值。简单来说,就是借助BI工具,可以完成复杂的数据分析、数据统计等需求,为公司决策带来巨大的价值。所以,一般提到BI,我们指代的就是工具软件。FineBISuperSetPowerBITableAu详细的finebi的介绍与安装可跳转到【Hadoop】-FineBI的介绍及安装[16]阅读。

2024-05-04 11:55:08 3041 6

原创 【Hadoop】-FineBI的介绍及安装[16]

FineBI的介绍:https://www.finebi.com/FineBI 是帆软软件有限公司推出的一款商业智能(Business Intelligence)产品。FineBI 是定位于自助大数据分析的 BI 工具,能够帮助企业的业务人员和数据分析师,开展以问题导向的探索式分析。

2024-05-04 11:54:03 377

原创 【Hadoop】-Apache Hive使用语法与概念原理[15]

大数据体系下,在真正的企业环境中,很容易出现很大的表,比如体积达到TB级别。对这种表一个简单的SELECT * 都会非常的慢,哪怕LIMIT 10想要看10条数据,也会走MapReduce流程 这个时间等待是不合适的。在大数据中,最常用的一种思想就是分治,我们可以把大的文件分割成一个个小的文件,这样每次操作一个小的文件就会很容易了。否则,将引发架构错误。分桶和分区一样,也是一种通过改变表的存储模式,从而完成对表优化的一种调优方式。----如果数据在本地,需要带local,如果在hdfs就不用带了。

2024-04-24 18:16:44 564 3

原创 【Hadoop】-Hive客户端:HiveServer2 & Beeline 与DataGrip & DBeaver[14]

DataGrip是由JetBrains公司推出的数据库管理软件,DataGrip支持几乎所有主流的关系数据库产品,如DB2、Derby、MySQL、Oracle、SQL Server等,也支持几乎所有主流的大数据生态圈SQL软件,并且提供了简单易用的界面,开发者上手几乎不会遇到任何困难。3、连接成功,在里面我们可以看到我们前面章节所创建的表,这样子就可以在里面操作我们的sql语句的。5、连接成功,在里面我们可以看到我们前面章节所创建的表,这样子就可以在里面操作我们的sql语句的。

2024-04-24 17:23:25 1726 3

原创 【Hadoop】-Hive初体验[13]

INSERT INTO test values(1,'海员','男'),(2,'林芝零','女'),(3,'雷恩斯','男');可以执行:bin/hive,进入到Hive Shell环境中,可以直接执行SQL语句。打开YARN的WEB UI页面查看任务情况:http://node1:8088。Hive的数据存储在HDFS的:/user/hive/warehouse中。预先确保已经完成部署Hive,并启动了Metastore服务。

2024-04-23 19:13:30 486

原创 【Hadoop】-Hive部署[12]

Hive ThriftServer方式(不可直接写SQL,需要外部客户端链接使用): bin/hive --service hiveserver2。后台启动:nohup bin/hive --service metastore >> logs/metastore.log 2>&1 &后台启动:nohup bin/hive --service metastore >> logs/metastore.log 2>&1 &支持,Hive的配置已经完成,现在在启动Hive前,需要先初始化Hive所需的元数据库。

2024-04-23 16:52:13 1384 2

原创 【Hadoop】-拓展:蒙特卡罗算法求PI的基础原理[10]

Monte Carlo算法的基本思想是:以模拟的“实验”形式、以大量随机样本的统计形式,来得到问题的求解。如图,我们在正方形内,随机落点,统计落在1/4圆内的点和总店数量的比例即可得到1/4的PI,最终乘以4即可得到PI。比如,红色点的数量比全部点的数量,结果是0.756,那么乘以4就可以得到3.06,3.06就是求得的PI。

2024-04-22 23:08:14 270

原创 【Hadoop】-Apache Hive概述 & Hive架构[11]

对数据进行统计分析,SQL是目前最为方便的编程工具。大数据体系中充斥着非常多的统计分析场景所以,使用SQL去处理数据,在大数据中也是有极大的需求的。但我们hadoop里边的MapReduce支持程序开发(Java、python),但不支持SQL开发。如果有一个什么办法,让我们大数据体系内支持SQL的话,这样就好办了。那怎么样支持呢?这就是我们的了。Apache Hive是一款分布式SQL计算的工具,其主要功能是:将SQL语句翻译成MapReduce程序运行。

2024-04-22 23:07:46 620 1

原创 【Hadoop】- MapReduce & YARN 初体验[9]

1、Hadoop自带的MapReduce示例程序的代码jar包是2、使用什么命令提交MapReduce程序到YARN中执行?hadoop jar 命令语法:hadoop jar 程序文件 java类名 [程序参数] ..... [程序参数]3、如何查看程序运行状态在YARN WEB页面查看。

2024-04-21 23:13:45 1576 1

原创 【Hadoop】- MapReduce & YARN的部署[8]

MapReduce和YARN的配置文件修改好后,需要分发到其他的服务器节点中。MapReduce运行在YARN容器内,无需启动独立进程。2、mapred-site.xml文件,添加如下配置信息。分发完成配置文件,就可以启动YARN的相关进程啦。有3台服务器,其中node1配置较高。即可查看YARN集群的监控页面。文件,添加如下环境变量。

2024-04-21 20:17:19 1520

原创 【Hadoop】- YARN架构[7]

Yarn架构是一个用于管理和调度Hadoop集群资源的系统。它是Hadoop生态系统的一部分,主要用于解决Hadoop中的资源管理问题。通过使用Yarn架构,Hadoop集群中的不同应用程序可以共享集群资源,并根据需要动态分配和回收资源。这种灵活的资源管理能力可以提高集群的利用率和性能。

2024-04-21 16:01:23 947

原创 【Hadoop】- YARN概述[6]

1、YARN是做什么的?YARN是Hadoop的一个组件用以做集群的资源(内存、CPU等)调度2、为什么需要资源调度将资源统一管控进行分配可以提高资源利用率3、程序如何在YARN内运行程序向YARN申请所需资源YARN为程序分配所需资源供程序使用4、MapReduce和YARN的关系YARN用来调度资源给MapReduce分配和管理运行资源所以,MapReduce需要YARN才能执行。

2024-04-21 14:48:03 545 1

原创 【Hadoop】- MapReduce概述[5]

MapReduce是一种分布式计算框架,由Google开发。它的设计目标是将大规模数据集的处理和生成任务分布到一个由廉价计算机组成的集群中。在MapReduce模型中,输入数据被分割成若干小块,并在集群中的多个节点上并行处理。每个节点执行"map"函数,将输入数据转换为一组键值对。这些键值对将进行洗牌和排序,并将生成的中间数据发送到"reduce"函数。"reduce"函数将中间数据进行处理,将其合并为最终结果或输出。它根据所需的计算或分析对数据进行聚合和分析。

2024-04-21 13:45:18 551 1

原创 【Hadoop】-HDFS的存储原理[4]

HDFS的存储原理是将大文件切分成固定大小的数据块,并在集群中的不同节点上存储数据块的,以提高数据的可靠性和性能。同时,HDFS采用流式的数据读写方式,减少了寻址的开销,提高了数据的传输效率。

2024-04-20 23:31:08 1535 4

原创 【Hadoop】-HDFS的Shell操作[3]

Hadoop Distributed File System (HDFS) 是一个分布式文件系统,用于存储和处理大规模数据集。HDFS具有高可扩展性、高容错性和高吞吐量的特点,是Apache Hadoop框架的核心组件之一。HDFS提供了一个命令行界面(Shell),用于管理和操作文件系统中的文件和目录。使用HDFS的Shell,用户可以执行各种文件系统操作,如创建目录、上传文件、下载文件、删除文件等。HDFS的Shell操作类似于Linux的命令行操作,用户可以使用一系列命令来完成各种操作。

2024-04-19 20:08:17 1319 1

原创 【Hadoop】-HDFS集群环境部署[2]

workers: 配置从节点(DataNode)有哪些hadoop-env.sh 配置Hadoop的相关环境变量core-site.xml: Hadoop核心配置文件hdfs-site.xml: HDFS核心配置文件这些文件均存在于$HADOOP_HOME/etc/hadoop文件夹中ps:$HADOOP_HOME是后续我们要设置的环境变量,其指代Hadoop安装文件夹即/export/server/hadoop。

2024-04-13 23:13:49 1002

原创 【hadoop】-VMware虚拟机系统设置[1]

后续大数据的软件,将不会以root用户启动(确保安全,养成良好的习惯),我们为大数据的软件创建一个单独的用户Hadoop,并为三台服务器同样配置hadoop用户的免密互通。3、在每一台机器均切换到hadoop用户:su -hadoop,并执行ssh-keygen -t rsa -b 4096,创建SSH密钥。大数据的很多软件的运行都需要有Java运行环境的支持,所以我们在三台服务器上,预先都部署好JDK环境。修改三台虚拟机分别为node1,node2,node3,并修改IP分别为101,102,103。

2024-04-10 18:49:52 570 2

原创 【python】-pyecharts使用(柱状图案例开发)

ECharts 是百度开源的一个数据可视化 JS 库,而 Pyecharts 则是 ECharts 的 Python 封装,使得在 Python 中使用 ECharts 变得更加方便。Pyecharts 提供了一组简单而灵活的 API,使用户能够轻松地创建各种图表,包括但不限于折线图、柱状图、散点图、饼图、地图等。通过 pyecharts,用户可以使用 Python 语言处理和准备数据,然后使用简洁的代码生成交互式的图表,这些图表可以嵌入到 Web 应用程序中或保存为静态文件。

2024-04-09 15:08:32 495

hadoop-基于hive的聊天数据分析报表可视化案例数据源

hadoop-基于hive的聊天数据分析可视化案例数据源

2024-05-04

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除