hadoop
ywl470812087
个人简介:深耕物联网行业,ERP,CSDN博客专家。 任职华为网联网智慧照明、空调资深工程师,并且上线投产使用,研发企业亿量级吞吐中间件。 擅长 Java语言、C语言等。
展开
-
hadoop入门介绍(一)
hadoop是什么?(一)hadoop发展史 (二)Hadoop三大发行版本(三)Hadoop三大发行版本:Apache、Cloudera、Hortonworks。Apache版本最原始(最基础)的版本,对于入门学习最好。Cloudera在大型互联网企业中用的较多。Hortonworks文档较好。Apache Hadoop官网地址:http://hado...原创 2019-12-22 18:29:02 · 139382 阅读 · 0 评论 -
对安装好的hadoop集群做个测试
1,新建两个txt文件 往里面写入文本内容2,查看hdfs文件路径下的文件,发现hdfs文件不存在,新建hdfs文件目录 bin/hadoop fs -mkdir -p /user/root/3,将文件拷贝到hdfs下 ./bin/hadoop fs -put ../input/ in4,删除hdfs文件目录 ./bin/ha...原创 2019-08-17 21:51:56 · 127676 阅读 · 0 评论 -
执行work count程序报错Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster
程序执行过程报错:Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster根据报错提示找到hadoop安装目录下$HADOOP_HOME/etc/mapred-site.xml,增加以下代码重新运行程序如上图所示表示程序以及运行成功查看hd...原创 2019-09-08 15:17:41 · 118365 阅读 · 0 评论 -
hadoop回收站
一:回收站简介在HDFS里,删除文件时,不会真正的删除,其实是放入回收站/trash回收站里的文件可以快速恢复。可以设置一个时间阈值,当回收站里文件的存放时间超过这个阈值或是回收站被清空时,文件才会被彻底删除,并且释放占用的数据块。回收站功能如下:hadoop 的回收站trash功能默认是关闭的,所以需要在core-site.xml中手动开启cd /usr/loc...原创 2019-09-08 19:53:37 · 113336 阅读 · 0 评论 -
数据倾斜问题分析
文章出处:https://www.jianshu.com/p/539415d06f1b大数据----“数据倾斜”的问题一、Hadoop中的数据倾斜:什么是数据倾斜?(见下图)简单来说数据倾斜就是数据的key 的分化严重不均,造成一部分数据很多,一部分数据很少的局面。举个 word count 的入门例子: 它的map 阶段就是形成 (“aaa”,1)的形式,然后在red...转载 2019-09-09 21:28:36 · 109092 阅读 · 0 评论 -
数据倾斜原理及解决方案
导读相信很多接触MapReduce的朋友对'数据倾斜'这四个字并不陌生,那么究竟什么是数据倾斜?又该怎样解决这种该死的情况呢?何为数据倾斜?在弄清什么是数据倾斜之前,我想让大家看看数据分布的概念:正常的数据分布理论上都是倾斜的,就是我们所说的20-80原理:80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量 , 不同的数据字...转载 2019-09-09 21:35:21 · 103049 阅读 · 0 评论 -
HiveQL中如何排查数据倾斜问题
原文:https://blog.csdn.net/u012151684/article/details/77074356如果某个key下记录数远超其他key,在join或group的时候可能会导致某个reduce任务特别慢。本文分析下join的场景。本例子SQL如下:查询每个appid打开的次数,需要排除掉作弊的imei。说明:表cheat_imei,7500万条,无大key,为作...转载 2019-09-09 23:36:27 · 124948 阅读 · 0 评论 -
Ant使用指南
此文章是转载的:https://blog.csdn.net/nalnait/article/details/80780682项目工具概述我们平常在写 Java 程序的时候,基本的步骤都是 打开一个集成开发环境(Eclipse 或者 Intellij IDEA)-> 开开心心的敲代码 ->点击 Run,就可以很有成就的看到自己辛劳的成果了。但是在实际的项目开发中,我们的项目会...转载 2019-09-13 18:02:03 · 135085 阅读 · 0 评论 -
HDFS(名称节点与数据节点)简介
HDFS:分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群这些节点分为主从节点,主节点可叫作名称节点(NameNode),从节点可叫作数据节点(DataNode)HDFS的存储模式:HDFS通过块的模式存储数据,默认情况下一个块是64M,把大文件拆分成多个块,可以最小化寻址开销这样的好处是:1.支持大规模文件存储 : 文件以块为单位进行存储,一个大规...转载 2019-09-19 23:26:54 · 135035 阅读 · 0 评论 -
HDFS SnapShot原理
【简介】HDFS快照简单地说就是对某个文件夹进行备份,创建了快照的文件夹本身不能被删除,但是文件夹里面的文件和文件夹都是可以被删除的。在对一个文件夹创建快照之前,需先允许该文件夹可以创建快照允许快照hdfs dfsadmin -allowSnapshot <path>创建快照hdfs dfs -createSnapshot <path> [<snapshot...原创 2019-09-21 11:11:15 · 113233 阅读 · 0 评论 -
Hadoop的安全模式介绍
Hadoop在NameNode重启的时候就会进入到安全模式,在安全模式中HDFS只支持访问元数据的操作才会返回成功,但是又不少朋友们不了解Hadoop,那么我们现在就去看看Hadoop的安全模式介绍。cd/usr/local/hadoop/hadoop-3.1.2/bin进入安全模式: ./hadoop dfsadmin -safemode enter ...原创 2019-09-07 10:23:13 · 130113 阅读 · 0 评论 -
Hadoop配置机架感知
配置机架感知core-site.xmlcat $HADOOP_HOME/etc/hadoop/core-site.xml<property> <name>net.topology.script.file.name</name> <value>pathdir/RackAware.py</value>...转载 2019-09-06 23:00:38 · 115736 阅读 · 0 评论 -
大数据技术之Hadoop3.1.2版本完全分布式部署搭建
java学习讨论群:725562382 欢迎加入学习先从别人那里复制了个思维导图给大家参考一.主机环境准备1>.操作系统环境[root@backup01 hadoop-3.1.2]# cat /etc/redhat-release CentOS Linux release 7.5.1804 (Core) [root@backup01 hadoo...原创 2019-08-10 10:05:33 · 131819 阅读 · 0 评论 -
hadoop集群搭建 修改配置文件(三台主机都要配置)
hadoop集群搭建 修改配置文件(三台主机都要配置) master 主机配置1)hadoop-env.shvimhadoop-env.sh2)core-site.xmlvim core-site.xml<configuration><!-- 指定HDFS...原创 2019-08-25 17:42:39 · 98251 阅读 · 0 评论 -
CDH5.16.2下载安装
1,CM 和CDH下载以及JDK和java驱动(手动安装)Cloudera Manager下载地址:http://archive.cloudera.com/cm5/cm/5/cloudera-manager-centos7-cm5.16.2_x86_64.tar.gzCDH安装包地址:http://archive.cloudera.com/cdh5/parcels/5.16.2/CDH-5...原创 2019-08-31 21:01:32 · 111349 阅读 · 0 评论 -
CDH 和ambari之间的比较
目前啊,都知道,大数据集群管理方式分为手工方式(Apache hadoop)和工具方式(Ambari + hdp 和Cloudera Manger + CDH)。1 什么是CDH,ambari?Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、P...原创 2019-09-02 11:49:42 · 116598 阅读 · 0 评论 -
hadoop3.1.2版本中FsImage与Editslog合并解析
我们知道HDFS是一个分布式文件存储系统,文件分布式存储在多个DataNode节点上。一个文件存储在哪些DataNode节点的哪些位置的元数据信息(metadata)由NameNode节点来处理。随着存储文件的增多,NameNode上存储的信息也会越来越多。那么HDFS是如何及时更新这些metadata的呢? 在HDFS中主要是通过两个组件FSImage和EditsLog来实现metadat...原创 2019-09-02 16:08:53 · 126465 阅读 · 0 评论 -
Hadoop:HDFS的概念理解和体系架构-成都加米谷大数据分享
HDFS是什么?HDFS 全称 Hadoop Distributed File System ,简称HDFS,是一个分布式文件系统。它是谷歌的GFS提出之后出现的另外一种文件系统。它有一定高度的容错性,而且提供了高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS 提供了一个高度容错性和高吞吐量的海量数据存储解决方案。优点1、存储超大文件2、标准流式访问:“一次写入,多...原创 2019-09-02 17:32:30 · 119601 阅读 · 0 评论 -
HDFS体系架构介绍
HDFS体系架构(最全)参考博客:https://blog.csdn.net/Lord_War/article/details/78727049汇总:https://www.cnblogs.com/meet/p/5439805.htmlNN:http://www.cnblogs.com/zlslch/p/5081112.htmlDN:http://www.cnblogs.com/z...转载 2019-09-02 17:46:11 · 115599 阅读 · 0 评论 -
HDFS详解(架构设计、副本放置策略、读写流程、进程、常用命令等)
前言:当数据集的大小超过一台独立的物理计算机的存储能力时,就有必要对它进行分区(Partition)并存储到若干台单独的计算机上。管理网络中跨多台计算机存储的文件系统成为分布式文件系统(distributed filesystem)。该系统架构与网络之上,势必会引入网络编程的复杂性,因此分布式文件系统比普通磁盘文件系统更为复杂。例如:使文件系统能够容忍节点故障且不丢失任何数据,就是一个极大的挑战...转载 2020-02-18 11:41:23 · 109178 阅读 · 0 评论 -
HDFS机架感知概念及配置实现
一、机架感知是什么?告诉 Hadoop 集群中哪台机器属于哪个机架二、那么怎么告诉呢?Hadoop 对机架的感知并非是自适应的,亦即,hadoop 集群分辨某台 slave 机器是属于哪个 rack 并非是智能感知的,而是需要 hadoop的管理者人为的告知 hadoop 哪台机器属于哪个 rack,这样在 hadoop的 namenode 启动初始化时,会将这些机器与 r...转载 2019-09-02 18:10:09 · 104487 阅读 · 0 评论 -
hadoop3.1.2 配置 3台 完全分布式
转载链接:https://blog.csdn.net/qq_41045774/article/details/92851175文章目录 3设备用root账户 永久主机名设置 静态ip地址 配置免密登录 Hadoop和Java的安装 加入环境变量 以下是master 6个文件配置 还有4个配置 主机格式化namenode slave1,slave2配置...转载 2019-08-25 10:54:09 · 113798 阅读 · 0 评论