hadoop专栏
文章平均质量分 75
猿来如此dj
目前西安工作-航天宏图公司大数据开发工程师,欢迎大家交流。
展开
-
DATAX数据同步工具
1、DataX完成单个数据同步的作业,我们称之为Job,DataX接受到一个Job之后,将启动一个进程来完成整个作业同步过程。DataX Job模块是单个作业的中枢管理节点,承担了数据清理、子任务切分(将单一作业计算转化为多个子Task)、TaskGroup管理等功能。2、DataXJob启动后,会根据不同的源端切分策略,将Job切分成多个小的Task(子任务),以便于并发执行。Task便是DataX作业的最小单元,每一个Task都会负责一部分数据的同步工作。原创 2023-05-30 17:33:51 · 2278 阅读 · 0 评论 -
DolphinScheduler海豚调度教程
DolphinScheduler海豚调度教程原创 2023-05-18 18:01:52 · 731 阅读 · 2 评论 -
大数据生态数据库技术选型
大数据生态数据库特性分析。原创 2023-05-18 15:44:22 · 1054 阅读 · 0 评论 -
hadoop简介
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。主要解决海量数据的存储和海量数据的分析计算问题并行计算的架构分而治之,先分后和。原创 2023-01-16 11:03:49 · 4287 阅读 · 0 评论 -
(一)idea开发hadoop配置
1.环境准备windows下的hadoop下载,hadoop的环境变量的配置java安装和环境变量的配置maven的安装以及环境变量配置idea的安装完成2:新建项目3:pom.xml修改<hadoop.version>2.7.6</hadoop.version>junitjunit4.11test<!--hadoop开发依赖核心...原创 2019-09-14 19:47:46 · 1277 阅读 · 0 评论 -
(二)hadoop面试
Hadoop是一个由Apache基金会所开发的分布式系统基础架构, 是一个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题,是大数据技术中的基石。Hadoop以一种可靠、高效、可伸缩的方式进行数据处理,用户可以在不了解分布式底层细节的情况下,开发分布式程序,用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。原创 2023-01-14 10:50:28 · 1053 阅读 · 0 评论 -
(二)大数据系列官方中文文档
大数据系列官方中文文档spark官方中文文档spark官方中文文档kafka官方中文文档kafka官方中文文档原创 2019-10-25 19:34:57 · 181 阅读 · 2 评论 -
(三)大数据集群规划简介
大数据集群规划简介1:服务器配置kafka 推荐配置---- 双路8核Intel处理器;内存:64GB(以上) DDR4;硬盘:2*600GB SAS 硬盘(系统盘);12*8T SATA硬盘;磁盘推荐raid1hdfs+hbase+hive 推荐配置----内存:256GB DDR4;硬盘:2*600GB SAS 硬盘;12*8T SATA硬盘;raid0elasticsearch 推荐配置----内存:256GB DDR4(越大越好);2*600GB SAS 硬盘;12*8T SATA硬盘;r原创 2020-07-21 17:06:48 · 1730 阅读 · 0 评论 -
(四)大数据集群运维
大数据集群运维1:集群扩容均衡1.1:hdfs均衡bash /opt/client/HDFS/hadoop/sbin/start-balancer.sh -threshold 偏差值例如:bash /opt/client/HDFS/hadoop/sbin/start-balancer.sh -threshold 10这个命令中-threshold 参数值是 HDFS 达到平衡状态的磁盘使用率偏差值。如果各节点间磁盘使用率与所有节点磁盘使用率的平均值偏差小于 10%,则 HDFS 集群已经达原创 2020-10-26 16:17:37 · 1348 阅读 · 0 评论 -
(5、1)hadoop之HDFS:文件管理系统
HDFS:概念简介文章目录HDFS:概念简介1:HDFS 设计思路2:HDFS 架构3:HDFS 优缺点3.1:HDFS 优点3.2:HDFS 缺点4:HDFS 安全模式4.1:正常启动的时候进入安全的原4.2:安全模式常用操作命令5:HDFS 副本存放策略6:负载均衡1:HDFS 设计思路1、 大文件被切割成小文件,使用分而治之的思想让很多服务器对同一个文件进行联合管理2、 每个小文件做............原创 2020-01-04 14:22:49 · 1335 阅读 · 1 评论 -
(5、2)HDFS基于JAVA开发实战示例
HDFS:JAVA API开发文章目录HDFS:JAVA API开发1:HDFS1.1:连接hadoop文件系统1.1.1:Configuration介绍1.1.2:Configuration使用1.1.3:FileSystem接口1.1.4:FileSystem接口使用1.1.5:FileStatus1.1.6:FSDataInputStream1.1.7:FSDataOutputStream...原创 2020-01-04 14:23:54 · 786 阅读 · 1 评论 -
(6、1)hadoop之yarn:资源调度系统
yarn资源调度系统文章目录yarn资源调度系统1:yarn简介1:yarn架构1:ResourceManager2:NodeManager3:AppMaster4:Container容器5:ASM6:Scheduler2:YARN 作业执行流程1:yarn简介YARN 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台。YARN 其实就与运行的用户程序完全解耦,就意味着 YARN 上可以运行各种类型的分布式运算程序,所以,Spark、Storm 等运算框架都可以原创 2021-04-14 20:43:35 · 1069 阅读 · 2 评论 -
(7、2)MapReduce入门到精通wordcount入门
wordcount入门我们从不重复造轮子MapReduce界的helloworld程序就是WordCount程序。所谓WordCount,就是单词计数,就是用来统计一篇或者一堆文本文件中的各单词的出现次数。1:编码流程,单词计数程序应该是这样的: 1、逐行读取文本内容 2、把读取到的一行文本内容切割为一个一个的单词 3、把每个单词出现一次的信息记录为一个key-value,也就是“单词...原创 2019-04-24 10:37:13 · 179 阅读 · 1 评论