![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 81
大数据小禅
致力于大数据与人工智能算法领域,数据科学硕士,华为认证云享专家,阿里云专家博主,大数据开发工程师,期待与你共同学习成长
展开
-
让最近爆火的ChatGPT来谈谈,作为一个技术人该如何写好一篇技术博文
ChatGPT 是由 OpenAI 训练的一个大型语言模型。专门设计用于回答用户提出的问题,我可以提供有价值的信息,并帮助用户解决问题下面的回答均来自ChatGPT。原创 2022-12-14 15:43:09 · 3908 阅读 · 6 评论 -
【数仓环境搭建】超详细大数据常用框架集群搭建合集 | 附带详细安装过程
很多小伙伴在学习大数据的时候应该都遇到过集群环境搭建的问题,需要考虑到各个框架之间的兼容性,搭建起来也比较麻烦。本篇文章汇总了大数据开发中的常用组件集群搭建过程,附带了详细的搭建过程截图,提供了对应版本的安装包确保环境兼容。主要包括Hadoop,HDFS,YARN,Spark,Hive,MySQL,HBase.原创 2022-05-30 14:32:02 · 2795 阅读 · 34 评论 -
Hive环境搭建 | 数据仓库工具搭建详细过程
🚀 作者 :“大数据小禅”🚀 简介:详解数据仓库工具Hive的搭建过程🚀 安装包|文档获取:获取对应的安装包可以通过最下方公众号联系我备注获取。1.Hive简介hive是基于Hadoop的一个数据仓库的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门MapReduce应用程序。.原创 2022-05-30 14:09:57 · 1623 阅读 · 0 评论 -
Zookeeper集群搭建详细过程 | 附带详细过程截图
🚀 作者 :“大数据小禅”🚀 简介:详细讲解Zookeeper的环境搭建,附带过程截图。🚀 安装包获取:获取对应的安装包可以通过最下方公众号联系我备注获取。1.Zookeeper简介ZooKeeper 顾名思义 动物园管理员,他是拿来管大象(Hadoop) 、 蜜蜂(Hive)等等一些大数据组件。ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功.原创 2022-05-30 13:53:05 · 993 阅读 · 0 评论 -
Sqoop集群环境搭建 | MySQL数据导出HDFS测试
🚀 作者 :“大数据小禅”🚀 简介:详细讲解Sqoop的环境搭建,通过Sqoop将mysql导出到HDFS,附带过程截图。🚀 安装包获取:获取对应的安装包可以通过最下方公众号联系我备注获取。1.Sqoop简介Apache Sqoop是在Hadoop生态体系和*RDBMS体系之间传送数据的一种工具。来自于Apache软件基金会提供。,主要用于在Hadoop(Hive)与传统的数据库间进行数据的传递,可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据.原创 2022-05-30 12:03:40 · 879 阅读 · 0 评论 -
Kafka集群搭建与测试详细教程 | 附带详详细截图
详细讲解Kafka的集群搭建过程原创 2022-05-30 10:19:30 · 1852 阅读 · 2 评论 -
HBase完全分布式搭建 | 集群建表测试
🚀 作者 :“大数据小禅”🚀 简介:详细讲解HBase的集群分布式搭建,附带过程截图。🚀 安装包获取:获取对应的安装包可以通过最下方公众号联系我备注获取。1.HBase简介HBase是一个分布式的、面向列的开源数据库,一个结构化数据的分布式存储系统。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。它介于n.原创 2022-05-26 10:00:44 · 1061 阅读 · 3 评论 -
MySQL5.7快速搭建不踩坑 | 配置远程访问
🚀 作者 :“大数据小禅”🚀 简介: MySQL5.7数据库快速安装 | 不踩坑🚀 简介:对应的依赖包可以通过最下方公众号私信我获取~1.MySQL简介MySQL 是一款安全、跨平台、高效的,并与 PHP、Java 等主流编程语言紧密结合的数据库系统。目前 MySQL 被广泛地应用在 Internet 上的中小型网站中。由于其体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,使得很多公司都采用 MySQL 数据库以降低成本。MySQL 数据库可以称得上是目前运行速度最快的 SQL 语言数.原创 2022-05-24 10:08:22 · 801 阅读 · 3 评论 -
Flink状态管理与Checkpoint实战——模拟电商订单计算过程中宕机的场景,探索宕机恢复时如何精准继续计算订单
Flink的状态与容错是这个框架很核心的知识点。其中一致检查点也就是Checkpoints也是Flink故障恢复机制的核心,这篇文章将详细介绍Flink的状态管理和Checkpoints的概念以及在生产环境中的参数设置。什么是State状态?在使用Flink进行窗口聚合统计,排序等操作的时候,数据流的处理离不开状态管理是一个Operator的运行的状态/历史值,在内存中进行维护流程:一个算子的子任务接收输入流,获取对应的状态,计算新的结果,然后把结果更新到状态里面有状态和无状态介绍.原创 2021-10-30 17:47:41 · 4049 阅读 · 13 评论 -
硬核!!教你如何通过脚本自动部署虚拟机并安装操作系统
前言学习过Linux的小伙伴们应该都知道,我们刚开始学习的时候都需要自己安装一台虚拟机并在虚拟机上安装操作系统来进行学习。整个过程是比较繁琐的,首先你要先安装虚拟机软件,比如VMware这些,之后你需要找到对应的操作系统的镜像导入到虚拟机,完成操作系统的安装,接下来还需要配置网卡的IP地址,保证网络不出错等等。做完这些操作往往需要花费大量的时间,如果接下来还需要部署一些软件环境的话,可能还要手动操作很久,并且不能保证每一步的不报错。这里引入Vagrant+VirtualBox,教大家如何通过运行脚本的方原创 2021-08-10 00:29:17 · 7037 阅读 · 11 评论 -
2021最全大数据面试题汇总---hadoop篇,附答案!
大数据面试题来了! 本篇文章搜集了常见的大数据面试题以及答案,包含了Hadoop,Flume,Hbase,Hive,kafka,spark,zookeeper等方面的内容,助同学们收到心仪的Offer!1.hadoop面试题合集1、集群的最主要瓶颈磁盘IO2、Hadoop运行模式单机版、伪分布式模式、完全分布式模式3、Hadoop生态圈的组件并做简要描述1)Zookeeper:是一个开源的分布式应用程序协调服务,基于zookeeper可以实现同步服务,配置维护,命名服务。2)Flume.原创 2021-07-30 11:14:03 · 6109 阅读 · 6 评论 -
建议收藏!详细解析如何对spark进行全方位的调优
前言:Apache Spark 是专为大数据处理而设计的快速的计算引擎,Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是—spark的输出结果可以保存在内存中,不用再进行HDFS的读写,因此Spark被广泛用于机器学习跟需要迭代计算类的算法。但是面对大量需要处理的数据,要让Spark稳定快速的运行,这就需要对Spark进行全方位的调优,从而在工作中拥有更高的处理效率。本篇文章主要对Spark如何进行全方位的调优进行阐述主要从下面几点对Spark进行调优:1.避原创 2021-06-12 23:05:22 · 1738 阅读 · 3 评论 -
从零开始部署到上线:手把手教你搭建属于自己的个人博客网站!
从零开始部署到上线:手把手教你搭建属于自己的个人博客网站!博客:其实博客的正式名称是网络日记,见名知意,是使用特定软件在网络上出版发表和张贴个人文章的人,或者是一种由个人管理不定期更新文章的网站。现在是互联网逐渐发展,已经出现了很多可以供自己写博客的网站,大家可以在上面 发表自己的文章,供自己记录或者是供他人阅读。但是,可不可以自己搭建一个只属于自己的个人博客网站呢?这篇文章就带你从0开始搭建一个自己的个人博客网站,并部署到属于自己服务器。这里有一点要说的是,没有服务器的同学使用自己机器的linux系原创 2021-05-26 21:06:20 · 8726 阅读 · 37 评论 -
吊打面试官系列:从架构开始阐述,Kafka为什么这么快?
一文带你了解kafka为什么那么快?1.首先来说一下我们为什么要使用消息系统在没有使用消息系统之前,许多传统的系统业务对于消息的处理一般会采用串行方式或者并行方法;例如,你去网站注册一个账号,下面是串行跟并行的处理方式。串行方式:用户注册例子:用户主责,将注册信息记录到数据库后,发送注册消息邮件,再发送注册短信验证,每个过程小号50毫秒,一共就需要150毫秒并行方式:与串行不同的就是,在数据库记录完注册信息之后,发送消息跟发送邮件的动作同步完成,缩短了用户的等待时间:消息系统:消息系原创 2021-05-18 20:58:13 · 2202 阅读 · 9 评论 -
从后端到大数据,这里帮你规划一条高薪之路!
大数据(big data),是近几年很火的一共概念。**什么是大数据?**就举一个生活中很常见的一个例子,平常我们使用APP在各大商城进行商品浏览购物的时候,你会发现,当你在一类商品停留的时间较长时,回到首页,轮播图推荐跟猜你喜欢那一栏就有很大的可能给你推荐你刚刚浏览过去商品的同类。这里面就涉及到了大数据的一个概念,APP通过你的浏览记录,分析用户行为,再根据大数据的推荐系统,就完成了从点击浏览,到秒处理推荐的一个过程。大数据,说白了就是大量数据的一个集合,来源于海量用户的一次次行为数据。大数据的核心意原创 2021-05-09 23:21:52 · 1393 阅读 · 0 评论