大数据技术体系
熙客
不生产知识,只是知识的搬运工
展开
-
文件存储格式
一、前言1.1 概述文件存储格式:文件存储格式是数据在磁盘上的组织方式,直接决定了数据存取效率以及被上层分布式计算集成的容易程度。1.2 常见存储格式创建的存储格式包括 行式存储 和 列式存储 两种:行式存储 以 文本格式Text File、key/value 二进制存储格式 Sequence File 为典型代表。列式存储 以 ORC、Parquet 和 Carbon Data 三种文件格式为代表。1.3 行列存储数据组织方式 数据(每一行由若干列构成)在行存储和列存..原创 2020-06-24 19:59:42 · 4696 阅读 · 0 评论 -
数据序列化
目录一、概述二、数据序列化的意义三、数据序列化方案3.1序列化框架 Thrift3.2 序列化框架 Protobuf3.3 序列化框架 Avro四、序列化框架对比4.1 性能方面4.2 非功能方面一、概述数据序列化:数据序列化是将内存对象转化为字节流的过程,它直接决定了数据解析效率以及模式演化能力(数据格式发生变化时,比如增加或删除字段,是否仍能够保持兼容性)。二、数据序列化的意义 当需要将数据存入文件或者通过网络发送出去时,需将数据对象转...原创 2020-06-23 09:31:24 · 3976 阅读 · 0 评论 -
Kafka_数据分发中间件
一、前言 数据采集上来后,需要送到后端的组件进行进一步的分析,前段的采集和后端的处理往往是多对多的关系。为了简化传送逻辑,增强灵活性,在前端的采集和后端的处理之间需要一个消息中间件来负责消息转发,以保障消息可靠性,匹配前后端的速度差。二、Kafka概述kafka官网地址kafka文档地址2.1 产生背景 Kafka 是 LinkedIn 于 2010 年 12 月开源的消息系统,主要用于处理活跃的流式数据。活跃的流式数据在Web网站应用中很常见,这些数据包括网站的PV、用户访问了..原创 2020-06-18 12:45:06 · 1165 阅读 · 0 评论 -
Flume_日志收集工具
目录一、前言二、简介2.1 概述2.2 发展历程2.3 基本思想及特点三、Flume NG 基本架构3.1 基本架构3.2 Agent 内部组件1、Source2、Channel3、Sink3.3 高级组件1、Interceptor2、Channel Selector3、Sink Processer四、Flume NG 数据流拓扑构建方法4.1 如何构建数据流拓扑4.2 流式数据获取方式4.2 常见拓扑架构1、多路合并.原创 2020-06-16 18:13:14 · 494 阅读 · 0 评论 -
关系型数据的收集
为了能利用大数据技术处理和存储关系型数据(如mysql,oracle),首先需将这些数据导入到像HDFS、HBase这样的大数据存储系统中,以便使用MapReduce、Spark这样的分布式计算技术进行高效分析和处理。从另一个角度讲,为了便于与前端的数据可视化系统对接,我们通常需要讲Hadoop大数据系统分析产生的结果(如报表,通常数据量不会太大)导回到关系型数据库中。为了解决上述问题,高效地实现...原创 2020-02-14 23:50:26 · 807 阅读 · 0 评论 -
大数据技术框架
一、大数据应用场景1、互联网领域:搜索引擎、推荐系统、广告系统2、电信领域:网络管理和优化、市场与精准营销、客户关系管理、企业运营管理、数据商业化3、医疗领域:临床数据对比、药品研发、临床决策支持、实时统计分析、基本药物临床应用分析、远程病人数据分析、人口统计学分析、新农合基金数据分析、就诊行为分析、新的服务模式等。4、金融领域:客户画像应用、精准营销、风险管控、运营优化、二...原创 2020-02-12 05:43:35 · 1507 阅读 · 0 评论