- 博客(9)
- 资源 (3)
- 收藏
- 关注
原创 金融领域数据模型实例
通用金融行业主题域模型通用金融行业概念模型主题域模型的设计原则:1 是对商业模式的抽象2 以商业模式中关注的对象为划分依据3 内容完整且相对稳定4 每个主题域下一般都有一个与之同名的主实体,围绕该主实体展开各种关系实体及父子实体当事人主题当事人(PARTY)是指银行作为一个金融机构所服务的任意对象和感兴趣进行分析的各种个人或团体客户、潜在客户、代理机构、雇员、分行、部门等。一个PARTY可以同时是...
2018-02-14 10:41:16 18227
原创 Hadoop之Pig
什么是PigApache pig是用来处理大规模数据的高级查询语言,配合Hadoop使用,可以在处理海量数据时达到事半功倍的效果,比使用Java,C++等语言编写大规模数据处理程序的难度要小n倍,实现同样效果的代码量也小N倍。Twitter就是使用pig来处理海量数据,它的主要特点是:易于编程自动优化:它的编码方式允许系统自动优化执行过程,从而可以让用户专注于业务编程可扩展性:可以
2016-07-15 13:34:58 714
原创 Hadoop之HBase
什么是HBaseHBase是开源实现的一个NoSQL分布式数据库实时的Key-Value数据库基于HDFS存储基于列存储,高可靠,高性能什么时候用HBase数据足够多不需要依赖于RDBMS的一些特性HBase逻辑结构HBase中没有数据类型,全是byte[],包括KEYRowKey:记录主键,可通过单个KEY,范围,全表扫描,HBas
2016-07-14 14:39:29 459
原创 Hadoop之Impala
Impala介绍Impala是实时交互的大数据查询工具智能的SQL查询分布式的数据查询实时的数据查询Impala体系结构Impalad:运行于集群中的每一个节点,负责读写文件及处理用户请求Metastore:负责集群健康监控,节点协调等Catalog:负责集群的数据字典服务及节点间的同步Impala与HiveHive不是实时的Impala
2016-07-13 10:33:25 787
原创 HIVE(下)
HIVE基本数据类型Numeric TypesDate/Time TypesString TypesMisc TypesHIVE复合数据类型Complex TypesHIVE物理存储文件格式SEQUENCEFILEKey-Value存储格式文件TEXTFILE RCFILE 行列混合存储ORC RCFILE的优化PARQ
2016-07-12 14:47:23 291
原创 HIVE(上)
什么是HIVE,为什么HIVE应用最广泛基于Hadoop的数据仓库可以将结构化数据映射为表,并提供SQL语言接口最终将SQL转化为MapReduce执行HIVE同样具有高可靠性,可扩展HIVE体系结构MetaStore:存储和提供HIVE数据字典服务HiveServer2:提供HIVE接口服务HIVE中MetaStore的选择和优化MetaStore
2016-07-12 13:49:27 602
原创 HDFS
什么是HDFS适合运行在通用硬件(commodity hardware)上的分布式文件系统高度容错性,数据建议至少冗余2份提供高吞吐量的数据访问,因此更多的考虑数据批量处理简单的一致性模型,一个文件经过创建、写入和关闭之后就不需要改变,现在支持追加HDFS体系结构Block:HDFS中的所有文件按数据块进行存储,HDFS默认块大小64MB,跟普通文件系统一样
2016-07-12 09:47:16 313
原创 大数据
大数据(Big data),或称巨量数据、海量数据、 大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理称为人类所能解读的形式的信息--维基百科大数据的特点(4V)Volume数据量巨大Variety数据多样性:结构化/非结构化,文件/图片/视频/音频地理位置等Value价值密度低:像交通监控视频,有用的就那么一两秒Veloci
2016-07-12 09:45:48 507
原创 ora 12560 协议适配器错误
先安装数据库后安装client造成的,在环境变量中,把数据库的环境变量调到client环境变量的前面即可解决。
2015-08-01 19:59:52 490
Apache Kylin权威指南
2018-02-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人