- 博客(6)
- 资源 (2)
- 收藏
- 关注
翻译 Hadoop文件格式
1、Hadoop中文件格式大致分为面向行、面向列两种方式: 面向行: 同一行数据存储在一起,如SequenceFile、MapFile、Avro DataFile都是该存储方式,如果需要访问同行小部分数据,也需要将整行读入内存,所以该存储方式适合整行数据同时处理的情况。 面向列: 整个文件被切割成若干列数据,每列数据一起存储,RCFile、ORCFile都是该存储方式,读取数据时可
2017-08-02 21:46:49 1649
原创 单点登录-待续
1、定义 SSO定义是在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统。 2、技术实现机制 1、用户第一次访问应用1的时候,因为还没有登录,会被引导到认证系统进行登录,根据用户提供的登录信息,认证系统进行身份验证,如果通过,则返回用户一个认证的凭据-ticket。 2、用户再访问别的应用的时候就会将这个ticket带上,作为自己认证的凭据,应用系统接收到请求后会把t
2017-02-04 14:42:35 323
原创 Sqoop数据抽取-待续
Sqoop主要用于在HDFS、关系型数据库之间传递数据,可以将关系型数据库数据导入到HDFS,也可以将HDFS数据导出到关系数据库。本文主要讲解一下使用sqoop进行单库单表以及分库分表数据的抽取方法。直接抽取hdfs数据并实现增量 在实际开发项目中有时候需要直接使用hdfs上已有的数据而且是需要增量抽取,本文例子均是在oozie中调用相关的hadoop组件实现不同的功能,举例代码如下:
2016-12-14 18:15:37 3298
原创 Hbase
Hbase介绍 Hbase采用Master/Slave模式搭建集群,由以下类型节点组成: - HMaster - HRegionServer - Zookeeper 底层数据存储在hdfs中,总体结构如下: 使用案例 普通Java API连接Hbase集群 Configuration configuration = new Configuration();
2016-12-13 18:43:18 360
原创 Hive
Hive介绍 Hadoop的一个数据仓库工具,可将结构化数据映射为一张数据库表,并提供完整的sql查询功能。Hive将sql语句转换为mr任务执行,使用类sql语言查询,称为hql,也允许熟悉mr开发者开发自定义mr程序完成复杂的分析工作。 与关系型数据库区别如下: 1. 存储文件系统不同,hive使用hdfs,关系数据库使用的是服务器本地的文件系统。 2. Hive计算模型
2016-12-13 17:54:34 658
原创 Hadoop2.x通过Zookeeper实现NameNode HA方案集群搭建-实践版
配置静态IP 执行vi /etc/sysconfig/network-scripts/ifcfg-eth0,注:每个节点IP不一样 DEVICE=eth0 HWADDR=00:0C:29:B4:3F:A2 TYPE=Ethernet UUID=16bdaf21-574b-4e55-87fd-12797bc7da5c ONBOOT=yes NM_CONTROLLED=yes BOOTPROTO=s
2016-12-13 15:59:15 1854
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人