![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 81
星星法术嗲人
这个作者很懒,什么都没留下…
展开
-
【Hadoop】--基于hadoop和hive实现聊天数据统计分析,构建聊天数据分析报表[17]
BI:Business Intelligence,商业智能。指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行分析以实现商业价值。简单来说,就是借助BI工具,可以完成复杂的数据分析、数据统计等需求,为公司决策带来巨大的价值。所以,一般提到BI,我们指代的就是工具软件。FineBISuperSetPowerBITableAu详细的finebi的介绍与安装可跳转到【Hadoop】-FineBI的介绍及安装[16]阅读。原创 2024-05-04 11:55:08 · 4484 阅读 · 6 评论 -
【Hadoop】-FineBI的介绍及安装[16]
FineBI的介绍:https://www.finebi.com/FineBI 是帆软软件有限公司推出的一款商业智能(Business Intelligence)产品。FineBI 是定位于自助大数据分析的 BI 工具,能够帮助企业的业务人员和数据分析师,开展以问题导向的探索式分析。原创 2024-05-04 11:54:03 · 434 阅读 · 0 评论 -
【Hadoop】-Apache Hive使用语法与概念原理[15]
大数据体系下,在真正的企业环境中,很容易出现很大的表,比如体积达到TB级别。对这种表一个简单的SELECT * 都会非常的慢,哪怕LIMIT 10想要看10条数据,也会走MapReduce流程 这个时间等待是不合适的。在大数据中,最常用的一种思想就是分治,我们可以把大的文件分割成一个个小的文件,这样每次操作一个小的文件就会很容易了。否则,将引发架构错误。分桶和分区一样,也是一种通过改变表的存储模式,从而完成对表优化的一种调优方式。----如果数据在本地,需要带local,如果在hdfs就不用带了。原创 2024-04-24 18:16:44 · 568 阅读 · 3 评论 -
【Hadoop】-Hive客户端:HiveServer2 & Beeline 与DataGrip & DBeaver[14]
DataGrip是由JetBrains公司推出的数据库管理软件,DataGrip支持几乎所有主流的关系数据库产品,如DB2、Derby、MySQL、Oracle、SQL Server等,也支持几乎所有主流的大数据生态圈SQL软件,并且提供了简单易用的界面,开发者上手几乎不会遇到任何困难。3、连接成功,在里面我们可以看到我们前面章节所创建的表,这样子就可以在里面操作我们的sql语句的。5、连接成功,在里面我们可以看到我们前面章节所创建的表,这样子就可以在里面操作我们的sql语句的。原创 2024-04-24 17:23:25 · 2402 阅读 · 3 评论 -
【Hadoop】-Hive初体验[13]
INSERT INTO test values(1,'海员','男'),(2,'林芝零','女'),(3,'雷恩斯','男');可以执行:bin/hive,进入到Hive Shell环境中,可以直接执行SQL语句。打开YARN的WEB UI页面查看任务情况:http://node1:8088。Hive的数据存储在HDFS的:/user/hive/warehouse中。预先确保已经完成部署Hive,并启动了Metastore服务。原创 2024-04-23 19:13:30 · 492 阅读 · 0 评论 -
【Hadoop】-Hive部署[12]
Hive ThriftServer方式(不可直接写SQL,需要外部客户端链接使用): bin/hive --service hiveserver2。后台启动:nohup bin/hive --service metastore >> logs/metastore.log 2>&1 &后台启动:nohup bin/hive --service metastore >> logs/metastore.log 2>&1 &支持,Hive的配置已经完成,现在在启动Hive前,需要先初始化Hive所需的元数据库。原创 2024-04-23 16:52:13 · 1390 阅读 · 2 评论 -
【Hadoop】-Apache Hive概述 & Hive架构[11]
对数据进行统计分析,SQL是目前最为方便的编程工具。大数据体系中充斥着非常多的统计分析场景所以,使用SQL去处理数据,在大数据中也是有极大的需求的。但我们hadoop里边的MapReduce支持程序开发(Java、python),但不支持SQL开发。如果有一个什么办法,让我们大数据体系内支持SQL的话,这样就好办了。那怎么样支持呢?这就是我们的了。Apache Hive是一款分布式SQL计算的工具,其主要功能是:将SQL语句翻译成MapReduce程序运行。原创 2024-04-22 23:07:46 · 624 阅读 · 1 评论 -
【Hadoop】-拓展:蒙特卡罗算法求PI的基础原理[10]
Monte Carlo算法的基本思想是:以模拟的“实验”形式、以大量随机样本的统计形式,来得到问题的求解。如图,我们在正方形内,随机落点,统计落在1/4圆内的点和总店数量的比例即可得到1/4的PI,最终乘以4即可得到PI。比如,红色点的数量比全部点的数量,结果是0.756,那么乘以4就可以得到3.06,3.06就是求得的PI。原创 2024-04-22 23:08:14 · 275 阅读 · 0 评论 -
【Hadoop】- MapReduce & YARN 初体验[9]
1、Hadoop自带的MapReduce示例程序的代码jar包是2、使用什么命令提交MapReduce程序到YARN中执行?hadoop jar 命令语法:hadoop jar 程序文件 java类名 [程序参数] ..... [程序参数]3、如何查看程序运行状态在YARN WEB页面查看。原创 2024-04-21 23:13:45 · 2239 阅读 · 1 评论 -
【Hadoop】- MapReduce & YARN的部署[8]
MapReduce和YARN的配置文件修改好后,需要分发到其他的服务器节点中。MapReduce运行在YARN容器内,无需启动独立进程。2、mapred-site.xml文件,添加如下配置信息。分发完成配置文件,就可以启动YARN的相关进程啦。有3台服务器,其中node1配置较高。即可查看YARN集群的监控页面。文件,添加如下环境变量。原创 2024-04-21 20:17:19 · 1545 阅读 · 0 评论 -
【Hadoop】- YARN架构[7]
Yarn架构是一个用于管理和调度Hadoop集群资源的系统。它是Hadoop生态系统的一部分,主要用于解决Hadoop中的资源管理问题。通过使用Yarn架构,Hadoop集群中的不同应用程序可以共享集群资源,并根据需要动态分配和回收资源。这种灵活的资源管理能力可以提高集群的利用率和性能。原创 2024-04-21 16:01:23 · 971 阅读 · 0 评论 -
【Hadoop】- YARN概述[6]
1、YARN是做什么的?YARN是Hadoop的一个组件用以做集群的资源(内存、CPU等)调度2、为什么需要资源调度将资源统一管控进行分配可以提高资源利用率3、程序如何在YARN内运行程序向YARN申请所需资源YARN为程序分配所需资源供程序使用4、MapReduce和YARN的关系YARN用来调度资源给MapReduce分配和管理运行资源所以,MapReduce需要YARN才能执行。原创 2024-04-21 14:48:03 · 549 阅读 · 1 评论 -
【Hadoop】- MapReduce概述[5]
MapReduce是一种分布式计算框架,由Google开发。它的设计目标是将大规模数据集的处理和生成任务分布到一个由廉价计算机组成的集群中。在MapReduce模型中,输入数据被分割成若干小块,并在集群中的多个节点上并行处理。每个节点执行"map"函数,将输入数据转换为一组键值对。这些键值对将进行洗牌和排序,并将生成的中间数据发送到"reduce"函数。"reduce"函数将中间数据进行处理,将其合并为最终结果或输出。它根据所需的计算或分析对数据进行聚合和分析。原创 2024-04-21 13:45:18 · 555 阅读 · 1 评论 -
【Hadoop】-HDFS的存储原理[4]
HDFS的存储原理是将大文件切分成固定大小的数据块,并在集群中的不同节点上存储数据块的,以提高数据的可靠性和性能。同时,HDFS采用流式的数据读写方式,减少了寻址的开销,提高了数据的传输效率。原创 2024-04-20 23:31:08 · 1597 阅读 · 4 评论 -
【Hadoop】-HDFS的Shell操作[3]
Hadoop Distributed File System (HDFS) 是一个分布式文件系统,用于存储和处理大规模数据集。HDFS具有高可扩展性、高容错性和高吞吐量的特点,是Apache Hadoop框架的核心组件之一。HDFS提供了一个命令行界面(Shell),用于管理和操作文件系统中的文件和目录。使用HDFS的Shell,用户可以执行各种文件系统操作,如创建目录、上传文件、下载文件、删除文件等。HDFS的Shell操作类似于Linux的命令行操作,用户可以使用一系列命令来完成各种操作。原创 2024-04-19 20:08:17 · 1336 阅读 · 1 评论 -
【Hadoop】-HDFS集群环境部署[2]
workers: 配置从节点(DataNode)有哪些hadoop-env.sh 配置Hadoop的相关环境变量core-site.xml: Hadoop核心配置文件hdfs-site.xml: HDFS核心配置文件这些文件均存在于$HADOOP_HOME/etc/hadoop文件夹中ps:$HADOOP_HOME是后续我们要设置的环境变量,其指代Hadoop安装文件夹即/export/server/hadoop。原创 2024-04-13 23:13:49 · 1015 阅读 · 0 评论 -
【hadoop】-VMware虚拟机系统设置[1]
后续大数据的软件,将不会以root用户启动(确保安全,养成良好的习惯),我们为大数据的软件创建一个单独的用户Hadoop,并为三台服务器同样配置hadoop用户的免密互通。3、在每一台机器均切换到hadoop用户:su -hadoop,并执行ssh-keygen -t rsa -b 4096,创建SSH密钥。大数据的很多软件的运行都需要有Java运行环境的支持,所以我们在三台服务器上,预先都部署好JDK环境。修改三台虚拟机分别为node1,node2,node3,并修改IP分别为101,102,103。原创 2024-04-10 18:49:52 · 576 阅读 · 2 评论