自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (3)
  • 收藏
  • 关注

原创 金融领域数据模型实例

通用金融行业主题域模型通用金融行业概念模型主题域模型的设计原则:1 是对商业模式的抽象2 以商业模式中关注的对象为划分依据3 内容完整且相对稳定4 每个主题域下一般都有一个与之同名的主实体,围绕该主实体展开各种关系实体及父子实体当事人主题当事人(PARTY)是指银行作为一个金融机构所服务的任意对象和感兴趣进行分析的各种个人或团体客户、潜在客户、代理机构、雇员、分行、部门等。一个PARTY可以同时是...

2018-02-14 10:41:16 18227

原创 Hadoop之Pig

什么是PigApache pig是用来处理大规模数据的高级查询语言,配合Hadoop使用,可以在处理海量数据时达到事半功倍的效果,比使用Java,C++等语言编写大规模数据处理程序的难度要小n倍,实现同样效果的代码量也小N倍。Twitter就是使用pig来处理海量数据,它的主要特点是:易于编程自动优化:它的编码方式允许系统自动优化执行过程,从而可以让用户专注于业务编程可扩展性:可以

2016-07-15 13:34:58 714

原创 Hadoop之HBase

什么是HBaseHBase是开源实现的一个NoSQL分布式数据库实时的Key-Value数据库基于HDFS存储基于列存储,高可靠,高性能什么时候用HBase数据足够多不需要依赖于RDBMS的一些特性HBase逻辑结构HBase中没有数据类型,全是byte[],包括KEYRowKey:记录主键,可通过单个KEY,范围,全表扫描,HBas

2016-07-14 14:39:29 459

原创 Hadoop之Impala

Impala介绍Impala是实时交互的大数据查询工具智能的SQL查询分布式的数据查询实时的数据查询Impala体系结构Impalad:运行于集群中的每一个节点,负责读写文件及处理用户请求Metastore:负责集群健康监控,节点协调等Catalog:负责集群的数据字典服务及节点间的同步Impala与HiveHive不是实时的Impala

2016-07-13 10:33:25 787

原创 HIVE(下)

HIVE基本数据类型Numeric  TypesDate/Time TypesString TypesMisc TypesHIVE复合数据类型Complex TypesHIVE物理存储文件格式SEQUENCEFILEKey-Value存储格式文件TEXTFILE RCFILE 行列混合存储ORC RCFILE的优化PARQ

2016-07-12 14:47:23 291

原创 HIVE(上)

什么是HIVE,为什么HIVE应用最广泛基于Hadoop的数据仓库可以将结构化数据映射为表,并提供SQL语言接口最终将SQL转化为MapReduce执行HIVE同样具有高可靠性,可扩展HIVE体系结构MetaStore:存储和提供HIVE数据字典服务HiveServer2:提供HIVE接口服务HIVE中MetaStore的选择和优化MetaStore

2016-07-12 13:49:27 602

原创 HDFS

什么是HDFS适合运行在通用硬件(commodity hardware)上的分布式文件系统高度容错性,数据建议至少冗余2份提供高吞吐量的数据访问,因此更多的考虑数据批量处理简单的一致性模型,一个文件经过创建、写入和关闭之后就不需要改变,现在支持追加HDFS体系结构Block:HDFS中的所有文件按数据块进行存储,HDFS默认块大小64MB,跟普通文件系统一样

2016-07-12 09:47:16 313

原创 大数据

大数据(Big data),或称巨量数据、海量数据、 大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理称为人类所能解读的形式的信息--维基百科大数据的特点(4V)Volume数据量巨大Variety数据多样性:结构化/非结构化,文件/图片/视频/音频地理位置等Value价值密度低:像交通监控视频,有用的就那么一两秒Veloci

2016-07-12 09:45:48 507

原创 ora 12560 协议适配器错误

先安装数据库后安装client造成的,在环境变量中,把数据库的环境变量调到client环境变量的前面即可解决。

2015-08-01 19:59:52 490

Apache Sqoop Cookbook

用问答的形式描述Sqoop的详细用法,Sqoop是hadoop平台的一个ETL工具,支持从关系型数据到HDFS,HIVE等抽取加载

2018-02-14

Kettle培训教程

Kettle入门教程,介绍了Kettle作业和转换各组件的使用方法。

2018-02-13

Apache Kylin权威指南

非常详细的Apache Kylin使用教程,从安装到使用以及优化都做了详细介绍。 一个好的 产品首先要有一个清晰的定位,要有一套能够明确解决行业痛点的方 案。Kylin在这点上做得非常好,它把自己定义为Hadoop大数据平台上的 一个开源OLAP引擎。三个关键词:Hadoop、开源、OLAP,使它的定位一 目了然,不用过多地解释。同时,Kylin也是透明的,不像许多产品把自己 使用的技术搞得很神秘,Kylin沿用了原来数据仓库技术中的Cube概念, 把无限数据按有限的维度进行“预处理”,然后将结果(Cube)加载到 HBase里,供用户查询使用,使得现有的分析师和业务人员能够快速理解 和掌握。相比于IOE时代的BI,它非常巧妙地使用了Hadoop的分布式存储 与并行计算能力,用横向可扩展的硬件资源来换取计算性能的极大提 高。 目录 推荐序一 推荐序二 推荐序三 推荐序四 前言 第1章 Apache Kylin概述 1.1 背景和历史 1.2 Apache Kylin的使命 1.2.1 为什么要使用Apache Kylin 1.2.2 Apache Kylin怎样解决关键问题 1.3 Apache Kylin的工作原理 1.3.1 维度和度量简介 1.3.2 Cube和Cuboid 1.3.3 工作原理 1.4 Apache Kylin的技术架构 1.5 Apache Kylin的主要特点 1.5.1 标准SQL接口 1.5.2 支持超大数据集 1.5.3 亚秒级响应 1.5.4 可伸缩性和高吞吐率 1.5.5 BI及可视化工具集成 1.6 与其他开源产品比较 1.7 小结 第2章 快速入门 2.1 核心概念 2.1.1 数据仓库、OLAP与BI 2.1.2 维度和度量 2.1.3 事实表和维度表 2.1.4 Cube、Cuboid和Cube Segment 2.2 在Hive中准备数据 2.2.1 星形模型 2.2.2 维度表的设计 2.2.3 Hive表分区 2.2.4 了解维度的基数 2.2.5 Sample Data 2.3 设计Cube 2.3.1 导入Hive表定义 2.3.2 创建数据模型 2.3.3 创建Cube 2.4 构建Cube 2.4.1 全量构建和增量构建 2.4.2 历史数据刷新 2.4.3 合并 2.5 查询Cube 2.6 SQL参考 2.7 小结 第3章 增量构建 3.1 为什么要增量构建 3.2 设计增量Cube 3.2.1 设计增量Cube的前提 3.2.2 增量Cube的创建 3.3 触发增量构建 3.3.1 Web GUI触发 3.3.2 构建相关的Rest API 3.4 管理Cube碎片 3.4.1 合并Segment 3.4.2 自动合并 3.4.3 保留Segment 3.4.4 数据持续更新 3.5 小结 第4章 流式构建 4.1 为什么要流式构建 4.2 准备流式数据 4.2.1 数据格式 4.2.2 消息队列 4.2.3 创建Schema 4.3 设计流式Cube 4.3.1 创建Model 4.3.2 创建Cube 4.4 流式构建原理 4.5 触发流式构建 4.5.1 单次触发 4.5.2 自动化多次触发 4.5.3 出错处理 4.6 小结 第5章 查询和可视化 5.1 Web GUI 5.1.1 查询 5.1.2 显示结果 5.2 Rest API 5.2.1 查询认证 5.2.2 查询请求参数 5.2.3 查询返回结果 5.3 ODBC 5.4 JDBC 5.4.1 获得驱动包 5.4.2 认证 5.4.3 URL格式 5.4.4 获取元数据信息 5.5 通过Tableau访问Kylin 5.5.1 连接Kylin数据源 5.5.2 设计数据模型 5.5.3 通过Live方式连接 5.5.4 自定义SQL 5.5.5 可视化 5.5.6 发布到Tableau Server 5.6 Zeppelin集成 5.6.1 Zeppelin架构简介 5.6.2 KylinInterpreter的工作原理 5.6.3 如何使用Zeppelin访问Kylin 5.7 小结 第6章 Cube优化 6.1 Cuboid剪枝优化 6.1.1 维度的诅咒 6.1.2 检查Cuboid数量 6.1.3 检查Cube大小 6.1.4 空间与时间的平衡 6.2 剪枝优化的工具 6.2.1 使用衍生维度 6.2.2 使用聚合组 6.3 并发粒度优化 6.4 Rowkeys优化 6.4.1 编码 6.4.2 按维度分片 6.4.3 调整Rowkeys顺序 6.5 其他优化 6.5.1 降低度量精度 6.5.2 及时清理无用的Segment 6.6 小结 第7章 应用案例分析 7.1 基本多维分析 7.1.1 数据集 7.1.2 数据导入 7.1.3 创建数据模型 7.1.4 创建Cube 7.1.5 构建Cube 7.1.6 SQL查询 7.2 流式分析 7.2.1 Kafka数据源 7.2.2 创建数据表 7.2.3 创建数据模型 7.2.4 创建Cube 7.2.5 构建Cube 7.2.6 SQL查询 7.3 小结 第8章 扩展Apache Kylin 8.1 可扩展式架构 8.1.1 工作原理 8.1.2 三大主要接口 8.2 计算引擎扩展 8.2.1 EngineFactory 8.2.2 MRBatchCubingEngine2 8.2.3 BatchCubingJobBuilder2 8.2.4 IMRInput 8.2.5 IMROutput2 8.3 数据源扩展 8.4 存储扩展 8.5 聚合类型扩展 8.5.1 聚合的JSON定义 8.5.2 聚合类型工厂 8.5.3 聚合类型的实现 8.6 维度编码扩展 8.6.1 维度编码的JSON定义 8.6.2 维度编码工厂 8.6.3 维度编码的实现 8.7 小结 第9章 Apache Kylin的企业级功能 9.1 身份验证 9.1.1 自定义验证 9.1.2 LDAP验证 9.1.3 单点登录 9.2 授权 9.3 小结 第10章 运维管理 10.1 安装和配置 10.1.1 必备条件 10.1.2 快速启动Apache Kylin 10.1.3 配置Apache Kylin 10.1.4 企业部署 10.2 监控和诊断 10.2.1 日志 10.2.2 任务报警 10.2.3 诊断工具 10.3 日常维护 10.3.1 基本运维 10.3.2 元数据备份 10.3.3 元数据恢复 10.3.4 系统升级 10.3.5 垃圾清理 10.4 常见问题和修复 10.5 获得社区帮助 10.5.1 邮件列表 10.5.2 JIRA 10.6 小结 第11章 参与开源 11.1 Apache Kylin的开源历程 11.2 为什么参与开源 11.3 Apache开源社区简介 11.3.1 简介 11.3.2 组织构成与运作模式 11.3.3 项目角色 11.3.4 孵化项目及顶级项目 11.4 如何贡献到开源社区 11.4.1 什么是贡献 11.4.2 如何贡献 11.5 礼仪与文化 11.6 如何参与Apache Kylin 11.7 小结 第12章 Apache Kylin的未来 12.1 大规模流式构建 12.2 拥抱Spark技术栈 12.3 更快的存储和查询 12.4 前端展现及与BI工具的整合 12.5 高级OLAP函数 12.6 展望

2018-02-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除