![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
HDFS
文章平均质量分 58
yoghurt2016
这个作者很懒,什么都没留下…
展开
-
HDFS一些概念的理解
HDFS(Hadoop Distribute File System)分布式文件系统概念好多,枯燥不易理解,多看几遍!!1.HDFS数据存放策略:分块存储+副本存放。2.数据拓扑结构(即数据备份):默认存放3份,可以通过修改配置文件hdfs-site.xml修改备份数量,如果本机在集群中,第一份就会存放到本节点即本机上,如果不在集群中,就通过负载均衡存放到一个相应的随机原创 2016-09-11 15:15:01 · 6046 阅读 · 0 评论 -
HDFS读写文件的java代码
对HDFS操作可以通过命令行,-put,-mkdir,-rm等等,也可以通过java代码来实现,总结一下读写的两个操作,其他的功能可以通过FileSystem类的方法获取。HDFS读文件的操作:可以通过简单的URL读取,也可以通过FileSystem读取,代码如下://通过URL读取public class URLText {static{URL.s原创 2016-09-11 17:06:15 · 780 阅读 · 0 评论 -
Navicat for mysql的乱码问题+linux下mysql乱码问题
Navicat for mysql的乱码问题或者linux下mysql乱码问题从hdfs到处数据到mysql或者从mysql导入数据到hdfs总是乱码,于是我就把基本上可能出现的问题就都总结了一下:1.首先确认linux下的mysql不乱码。如果乱码以下方法解决:(我只说一下永久性更改的方法,一次性的方法可以百度)a.linux和window不一样,所以需要先找原创 2016-09-22 14:43:06 · 5233 阅读 · 0 评论 -
HQL加载数据的几种方法小结
HQL加载数据的几种方法小结:对于没有创建分区的表(这里都以外部表为例)而言:create external table if not exists test (id int,name string) comment 'This is for test.' row format delimited fields terminated by '\t' locati原创 2016-09-25 10:35:27 · 1456 阅读 · 0 评论 -
Sqoop迁移工具的使用
概述sqoop是Apache顶级项目,主要用来在Hadoop和关系数据库中传递数据。通过sqoop,我们可以方便的将数据从关系数据库导入到HDFS,或者将数据从HDFS导出到关系数据库。sqoop架构:sqoop架构非常简单,其整合了Hive、Hbase和Oozie,通过map-reduce任务来传输数据,从而提供并发特性和容错。sqoop的进一步发展可原创 2016-10-15 09:53:28 · 535 阅读 · 0 评论 -
案例十二:多文件输出MultipleOutputs
案例十二:多文件输出MultipleOutputs好几天没写什么了,今天写点工作当中比较常用的东西吧--MultipleOutputs多路径输出,这个用的也比较多,比如可以输出分区的数据,方便hive里建表,也可以分类数据,都比较方便了。下篇再说一下多格式输出。主要用到MultipleOutputs这个类。直接上代码。先贴一下数据原创 2016-10-06 20:33:38 · 506 阅读 · 0 评论 -
案例十三:多格式文件输出MultipleOutputs
案例十二:多文件输出MultipleOutputs好几天没写什么了,今天写点工作当中比较常用的东西吧,多路径输出,下篇再说一下多格式输出。主要用到MultipleOutputs这个类。直接上代码。下面是结果,有两个都在/out/222,分别是FormatText和Fo原创 2016-10-06 20:03:03 · 666 阅读 · 0 评论