hadoop学习之路
文章平均质量分 95
Ahaxian
这个作者很懒,什么都没留下…
展开
-
CentOS7安装kafka与kafka-eagle
Kafka是由scala所编写的一个消息中间件,因此安装Kafka需要依赖Zookeeper分布式协议、java开发环境以及Scala开发环境,而安装kafka-eagle依赖kafka和SiteDB或MySQL,因此安装kafka与kafka-eagle的步骤为:安装配置java的开发环境安装配置Scala的开发环境安装配置Zookeeper集群安装配置Kafka集群安装配置MySQL或SiteDB安装配置kafka-eagle本文中上述组件的安装均在普通用户sxZhang。原创 2023-12-16 10:44:47 · 868 阅读 · 0 评论 -
CentOS7安装Zookeeper分布式集群
集群规模较小时,分发和打包的操作可以手动在每个节点一步一步的操作,但当集群的节点规模成百上千时,显然需要一种批量操作的方式,下面代码块中的for循环语句就是用于批量处理的。的文本文件,其内容为Zookeeper集群中节点的id,例如令host01、host02、host03对应的myid依次为1、2、3。目录下存放的是zookeeper可用的可执行命令,单个节点的启动、停止、状态查看都是通过该目录下的。的配置,需要指定自己的Zookeeper安装路径和自己集群主机的IP。原创 2023-12-15 15:00:38 · 914 阅读 · 0 评论 -
基于HDFS的Alluxio分布式缓存部署
Alluxio是一个面向基于云的数据分析和人工智能的开源的数据编排技术。Alluxio为数据驱动型应用和存储系统构建了桥梁,将数据从存储层移动到距离数据驱动型应用更近的位置,从而能够更容易被访问, 同时使得应用程序能够通过一个公共接口连接到许多存储系统。本文的目的在于基于HDFS分布式文件系统,部署Alluxio分布式缓存集群。原创 2022-10-13 15:03:02 · 1392 阅读 · 1 评论 -
Hadoop完全分布式环境搭建
hadoop集群完全分布式搭建流程,从免密登陆开始搭建原创 2022-09-23 20:37:43 · 1431 阅读 · 1 评论 -
Spark-Hadoop在Linux节点上以Local模式部署
本文介绍了如何配置和部署local模式的Hadoop和Spark,为了突出重点,本文未对密码登录的前期工作进行介绍,在在进行本文的实验内容之前还需要对部署的节点进行免密登陆配置,该部分内容不难,读者可根据其它博客实现。...原创 2022-06-07 17:57:04 · 321 阅读 · 2 评论 -
HBase Shell 常用命令练习
HBase Shell 常用命令练习前言一、HBase Shell是什么?二、HBase Shell使用步骤1.启动HBase2.启用HBase Shell3.键入HBase Shell命令操作HBase三、常用HBase Shell实例1.常用的HBase Shell命令2.一个运用上述命令的综合实例:总结前言提示:本博客为博主在阅读吴章勇和王强老师编写的《大数据 Hadoop3.X 分布式处理实战》的过程中,参照图书和个人理解进行HBase Shell的实验总结,算是该部分的读书笔记吧,当然本文对原创 2021-02-24 23:22:26 · 1433 阅读 · 1 评论 -
左外连接Left-Outer-Join的基于SQL,MapReduce,sparkRDD,sparkDataFrame以及spark SQL的实现案例及对比
提示:阅读本文需要部分java,scala,spark,sql的基础。文章目录前言一、什么是join操作?二、有那些常见的join的类型?三、使用SQL实现左外连接:1.数据准备2.实现案例四、使用MapReduce实现左外连接:1.数据准备:2.案例及设计思路:3.运行代码:4.运行结果:总结前言概要:本博客截取2020年数学建模国赛C题提供的部分数据作为数据源,联系现实中的需要用到join操作的场景,分别使用sql,mapreduce,spark RDD,spark DataFrame,以及sp原创 2021-02-15 02:22:41 · 771 阅读 · 0 评论 -
MapReduce实现TopN
MapReduce实现TopN算法,以获取一条轨迹的前N个速度最快的点为例文章目的理解TopN算法的思路[^1]:文章目的本博客通过使用MapReduce程序实现对一条轨迹提取前N个速度最快的点,以使读者增加对MapReduce编程模型的理解,包括如何规划MapReduce程序的setup()函数、cleanup()函数,以及编写map()函数和ruduce()函数的设计思路。理解TopN算法的思路1:TopN是一种现实生活环境中很常见的问题,其通常描述为“寻找出所有数据集中,最大/小/优的前N项记原创 2021-01-05 00:29:35 · 1898 阅读 · 0 评论 -
Centos安装配置NTP
配置前提:为虚拟主机:1.配置jdk;2.配置hadoop;3.配置静态IP;配置过程:一、配置NTP:1.查询NTP是否存在:rpm -qa | grep NTP2.如果NPT文件缺少,则安装NTP:yum install ntp一般来说,使用上述命令即可成功安装NTP,但是显然博主运气很不好,安装的过程中出现了如下错误,需要解决错误码后才能执行上述安装命令:Errno...原创 2020-04-21 17:24:06 · 3884 阅读 · 0 评论