大数据
姚华军
这个作者很懒,什么都没留下…
展开
-
Hadoop大数据开发__HBase启动异常object is not an instance of declaring class
1、HBase启动时异常如下2、尝试了各种解决方法,最后找到了根源:原创 2022-06-27 12:45:43 · 1944 阅读 · 2 评论 -
Hadoop大数据开发__Spark SQL和Hive集成离线读取数据
1、前面几篇文章已经完成了Hive和Spark的安装,下面进行这两部分的集成2、修改hive-site.xml3、复制mysql驱动到spark的jars包下4、修改spark-env.sh5、Hive创建数据库和表,以及准备数据6、准备数据7、启动hive中的metastore服务8、spark-sql测试(也可以用spark-shell执行测试)...原创 2022-06-25 16:12:15 · 433 阅读 · 0 评论 -
Hadoop大数据开发__Hive和HBase集成安装
1、前面的章节已经使用Flume把数据采集到了HBase数据库库中,但HBase属于NoSQL数据库,不支持SQL,直接基于HBase进行大数据分析非常不方便,所以可以利用Hive集成HBase,从而通过HQL完成大数据分析。2、前一篇文章已经完成大数据的部署,为了实现Hive与HBase的集成开发,首先需要保证Hive下面有HBase使用的jar包(本次使用的Hive版本为3.1.3,需要的包都带了,不需要再次复制,如果没有,从HBase中复制即可)3、修改hive-site.xml配置4、修改hi原创 2022-06-25 14:09:14 · 630 阅读 · 1 评论 -
Hadoop大数据开发__Hive的安装部署
1、准备Mysql数据库2、下载解压Hive3、修改Hive配置文件修改hive-site.xml配置hive的环境变量4、复制mysql-connector-java-5.1.35.jar到lib下5、hive元数据库初始化6、启动hive原创 2022-06-25 10:17:40 · 263 阅读 · 0 评论 -
大数据技术概述__大数据最全面的技术栈总结及分类
大数据不是一门专门的技术,而是很多技术的综合应用。可以通过一些列大数据技术对海量数据进行分析,挖掘出数据背后的价值。虽然大数据与Hadoop密切相关,但Hadoop并不等同于大数据,大数据也不是指Hadoop,大数据代表的是一种理念、一种解决问题的思维、一些列技术的集合,Hadoop只是其中一种具体的处理数据的技术框架,目前比较流行的Spark、Flink等实时计算框架也属于大数据技术。低侵入的浏览器探针技术采集用户浏览数据,使用爬虫技术获取网页技术,使用Canal采集MySQL数据库的binlog日志,原创 2022-06-19 17:44:59 · 1450 阅读 · 0 评论 -
Hadoop大数据开发__Spark Streaming集成Kafka集群实时读取数据(Spark on YARN)
1、准备需要的运行包2、测试运行原创 2022-06-24 10:29:12 · 341 阅读 · 0 评论 -
Hadoop大数据开发__Spark on YARN模式分布式集群安装部署
1、下载解压spark2、修改spark-env.sh3、测试运行原创 2022-06-23 16:49:20 · 337 阅读 · 0 评论 -
Hadoop大数据开发__Flume和HBase、Kafka集成
1、下载解压Flume2、修改Flume配置文件监测目录下是否有新文件,如果有就解析出来,发给hbase、kafka3、启动kafka的消费者4、启动Flume进行测试、同时发送给kafka、hbase原创 2022-06-23 15:47:54 · 391 阅读 · 0 评论 -
Hadoop大数据开发__Flume安装部署以及和Kafka集成
1、下载解压Flume2、修改Flume配置文件监测目录下是否有新文件,如果有就解析出来,发给kafka3、启动kafka的消费者4、启动Flume进行测试原创 2022-06-23 11:04:16 · 341 阅读 · 0 评论 -
Hadoop大数据开发__Kafka-manager安装部署
1、下载解压Kafka-manager2、配置kafka-manager3、kafka-manager启动和使用原创 2022-06-22 16:29:50 · 124 阅读 · 0 评论 -
Hadoop大数据开发__Kafka分布式集群安装部署
1、下载解压Kafka2、修改Kafka配置文件修改zookeeper.properties修改consumer.properties修改producer.properties修改server.properties3、kafka安装目录分发到hadoop02、hadoop034、修改Server编号5、启动Kafka集群6、验证集群......原创 2022-06-22 15:34:40 · 315 阅读 · 0 评论 -
Hadoop大数据开发__HBase分布式集群安装部署
1、下载解压HBase2、修改HBase配置文件修改hadoop-env.sh修改regionservers修改backup-masters修改hbase-env.sh3、配置HBase环境变量4、将hadoop/etc/hadoop中的core-site.xml和hdfs-site.xml复制到hbase的conf目录下5、HBase安装目录分发到hadoop02、hadoop036、启动HBase集群7、HBase集群状态验证......原创 2022-06-22 14:16:10 · 275 阅读 · 0 评论 -
Hadoop大数据开发__YARN分布式集群安装部署
1、在hadoop01节点上修改配置文件修改mapred-site.xml修改yarn-site.xml2、向所有节点hadoop02、hadoop03同步YARN配置文件3、启动YARN集群4、命令行验证(利用hadoop自带的mapreduce程序)在http://hadoop01:8088上能够看到执行状态是SUCCEEDED。...原创 2022-06-22 11:57:15 · 705 阅读 · 0 评论 -
Hadoop大数据开发__前期环境准备
1、准备三台主机主机名设定为:(vi /etc/hostname)IP地址设定为:(vi /etc/sysconfig/network-scripts/ifcfg-eth0)修改主机名和IP映射(vi /etc/hosts)2、关闭防火墙3、创建用户组和用户4、SSH免密登录配置sshd服务、hadoop01、hadoop02、hadoop03都执行在hadoop02上执行hadoop01、hadoop02、hadoop03三台机器重复执行上面的操作后,达到两两之间能够互相ssh免密登录。原创 2022-06-21 19:53:23 · 240 阅读 · 0 评论 -
Hadoop大数据开发__HDFS分布式集群安装部署
1、下载解压Hadoop2、修改HDFS配置文件修改hadoop-env.sh修改core-site.xml修改hdfs-site.xml修改slavesvi slaves3、启动HDFS集群4、验证HDFS集群是否成功命令验证如果上面没有异常,说明HDFS集群配置成功原创 2022-06-22 11:23:57 · 374 阅读 · 0 评论 -
Hadoop大数据开发__Zookeeper集群安装部署
1、下载解压Zookeeper2、配置Zookeeper3、将hadoop01的Zookeeper安装目录同步到hadoop02、hadoop03节点在hadoop02、hadoop03两个节点上分别生成软连接4、在三个节点上分别创建Zookeeper数据和日志目录(保持和zoo.cfg配置文件一致)5、为Zookeeper集群各个节点创建服务编号1、2、36、在三个节点启动Zookeeper集群显示一个leader(领导者)、两个follower(跟随者),说明Zookeeper集群安装部原创 2022-06-22 10:18:14 · 207 阅读 · 0 评论