读书笔记:大型分布式网站架构设计与实践(5)

目录:
大型分布式网站架构设计与实践(1)
大型分布式网站架构设计与实践(2)
大型分布式网站架构设计与实践(3)
大型分布式网站架构设计与实践(4)
大型分布式网站架构设计与实践(5)

5 数据分析

随着互联网行业的深入发展,数据的量级呈指数级增长。而数据是非常重要的信息,对数据进行收集和分析是一直在做的事情。当大数据时代来临之后,相应地也产生了一些新的数据收集、分析的工具。

5.1 日志收集

对于在线运行的系统来说,每天都会产生大量日志信息,需要对这些日志进行收集,分析,并做可视化展示。
ELK是elastic公司提供的一套完整的日志收集、展示解决方法,是三个产品的首字母缩写,分别是ElasticSearch、Logstash和Kibana。

ElasticSearch简称ES,是一个实时的分布式搜索和分析引擎,可以用于全文搜索,结构化搜索以及分析。它建立在全文搜索引擎Apache Lucene基础之上。

LogStash是一个具有实时传输能力的数据收集引擎,用来进行数据收集、解析,并将数据发送给ES。

Kibana为ElasticSearch提供了分析和可视化的Web平台。它可以在Elasticsearch的索引中查找,交互数据,并生成各种维度表格和图形。

5.2 离线数据分析和流式数据分析

大数据平台Hadoop主要集中在大数据离线批处理分析领域,而对于数据量不太大以及实时性要求很高的数据分析场景下则效果不太理想。离线数据分析的结果可以通过数据回流,重新存储到关系型数据库中,提供在线的实时查询服务,如好友推荐、商品推荐等。

与离线数据不同的时,流式数据是实时的,数据的价值随着时间的流逝而降低,因此需要实时地处理。

Storm是一个开源的分布式实时计算系统、可以简单可靠地对大量流逝数据进行分析处理。

5.3 数据同步

直接对线上存储系统进行数据分析会影响系统运行的稳定性。因此需要把数据采集到大数据平台中进行加工处理,这个过程也即所谓的ETL(数据抽取,清洗,转换,装载)过程。然后对于处理完毕的数据,有时候也并不能或不适合在大数据平台的相关服务中直接使用,而是要反馈回线上的业务系统中,这个过程称为数据的回写或导出。

数据同步就是指数据在不同系统组件之间的导入导出工作。比如将DB的数据采集到Hive中,将Hive中的数据导出给HBase等等。

离线数据同步工具有Sqoop,DataX等。Sqoop是用得比较多的工具,整体框架以Hadoop为核心。DataX是阿里开源的一款插件式,以通用的异构数据交换为目标的产品。

流式数据同步工具有Heka等。Heka是Mozilla开源的一套数据采集和分析工具,整体结构设计和LogStash差不多。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大型分布式网站架构设计实践》主要介绍了大型分布式网站架构所涉及的一些技术细节,包括SOA架构的实现、互联网安全架构、构建分布式网站所依赖的基础设施、系统稳定性保障和海量数据分析等内容;深入地讲述了大型分布式网站架构设计的核心原理,并通过一些架构设计的典型案例,帮助读者了解大型分布式网站设计的一些常见场景及遇到的问题。 作者结合自己在阿里巴巴及淘宝网的实际工作经历展开论述。《大型分布式网站架构设计实践》既可供初学者学习,帮助读者了解大型分布式网站的架构,以及解决问题的思路和方法,也可供业界同行参考,给日常工作带来启发。 作者简介 陈康贤,淘宝花名龙隆,淘宝技术部研发工程师,2011年加入淘宝网,参与了阿里云手机商城、口碑网迁移、店铺建站、offer、支付宝卡宝、生活商城、淘宝同学等项目,在分布式系统架构设计、高并发系统设计、系统稳定性保障等领域积累了较为丰富的实践经验。曾在程序员上发表过《漫谈基于http协议的SOA架构》《浅析HTTP平台的安全稳定性架构》两篇文章,对基于HTTP协议的SOA架构有深入研究,在排查解决线上问题和故障方面有丰富的实践经验,擅于利用数据分析解决实际问题,对新技术有浓厚的兴趣。 目录 第1章 面向服务的体系架构(SOA) 1 1.1 基于TCP协议的RPC 3 1.1.1 RPC名词解释 3 1.1.2 对象的序列化 4 1.1.3 基于TCP协议实现RPC 6 1.2 基于HTTP协议的RPC 9 1.2.1 HTTP协议栈 9 1.2.2 HTTP请求与响应 15 1.2.3 通过HttpClient发送HTTP请求 16 1.2.4 使用HTTP协议的优势 17 1.2.5 JSON和XML 18 1.2.6 RESTful和RPC 20 1.2.7 基于HTTP协议的RPC的实现 22 1.3 服务的路由和负载均衡 30 1.3.1 服务化的演变 30 显示全部信息 前言 在大型网站架构的演变过程中,集中式的架构设计出于对系统的可扩展性、可维护性以及成本等多方面因素的考虑,逐渐被放弃,转而采用分布式架构设计分布式架构的核心思想是采用大量廉价的PC Server,构建一个低成本、高可用、高可扩展、高吞吐的集群系统,以支撑海量的用户访问和数据存储,理论上具备无限的扩展能力。分布式系统的设计,是一门复杂的学问,它涉及到通信协议、远程调用,服务治理,系统安全、存储、搜索、监控、稳定性保障、性能优化、数据分析、数据挖掘等各个领域,对任何一个领域的深入挖掘,都能够编写一本篇幅不亚于本书的专门书籍。本书结合作者在阿里巴巴及淘宝网的实际工作经历,重点介绍大型分布式系统的架构设计,同时,为避免过度专注于理论而使得内容显得空洞,作者穿插介绍了很多实践的案例,尽量让每一个关键的技术点都落到实处,相信能够帮助读者更好地理解本书的内容。 内容大纲 全书共5章,章与章之间几乎是相互独立的,没有必然的前后依赖关系,因此,读者可以从任何一个感兴趣的专题开始阅读,但是,每一章的各个小节之间的内容是相互关联的,因此,最好按照原文的先后顺序阅读。 第1章主要介绍企业内部SOA(Service Oriented Architecture,即面向服务的体系结构)架构的实现,包括HTTP协议的工作原理,基于TCP协议和基于HTTP协议的RPC实现,如
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值