- 博客(13)
- 资源 (72)
- 收藏
- 关注
原创 kafka是数据处理的未来?
kafka能够通过kafka connect API实现流数据管道的构建,也就是ETL中的E和L,connect API利用了kafka的可扩展性,基于kafka的容错模型进行构建并且提供了一种统一的方式监控所有的连接器。流处理转换可以通过Kafka Stream API来实现,这提供了ETL中的T,来自source的数据经过抽取后可以作为结构化的事件放到平台中,然后可以通过流处理进行任意的转
2018-02-28 11:42:29 540
原创 (1)kafka综述和技术细节
kafka不仅仅是一个简单的消息队列,这个很片面,它是一个完备的流式数据平台,具备下面三个特点1 类似消息系统2 数据存储功能3 能够对实时事件流进行流式处理分析展开来说:消息系统有两种消息模型,队列和发布订阅模型存储系统是数据会保存到磁盘中。流处理系统:简单的处理,可以直接使用kafka的生产者和消费者的API来完成,但对于复杂的业务逻辑处理,直接操
2018-02-27 16:45:36 262
原创 如何为Kafka集群选择合适的Topic/Partitions数量
介绍一些与本问题相关的一些重要决策因素,并提供一些简单的计算公式越多的分区可以提供更高的的吞吐首先要明白,在kafka中,单个partition是kafka并行操作的最小单元,在producter和broker端,向每一个分区写入数据是完全可以并行的,此时,可以通过加大硬件资源的利用率来提升系统的吞吐量,例如对数据进行压缩,在consumer端,kafka只允许单个partition的数据
2018-02-27 14:01:01 9713
原创 通过flume进行简单的ETL工作
一般提起大数据的实时流处理,我们首先会想到复杂的storm spark kafka 等等,但是如果只是针对单条记录进行简单的ETL运算,使用Flume+Morphlines不失为一种优雅简约的方法flume是apache开源的项目,是一个分布式的,可靠的软件系统,主要是从大量的分散的数据源中收集,汇聚以及迁移大规模的日志数据,最后存储到一个集中的数据系统中。flume是由运行在不同主机系
2018-02-26 18:18:21 3769
原创 如何解决机器学习中的数据不平衡问题
越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难,数据不平衡问题虽然不是最难的,但绝对是最重要的问题之一。一 数据不平衡在学术研究和教学中,很多算法都有一个基本假设,就是数据分布是均匀的。当我们把这些算法直接应用在实际数据中时,大多数情况下都无法取得理想的结果,因为实际数据往往分布的很不均衡,都存在长尾效应。可以看到大部分微博的总互动数(被转发,评论和点赞
2018-02-26 14:28:47 5283
原创 zookeeper基础知识和应用程序
zookeeper是一个面向应用程序的高性能协调服务器,它使用一个简单的接口暴露公共服务(比如命名和配置管理,同步和组服务),让用户不必从头开始编程,它为实现共识,组管理,领导者选举和到场协议配备了现成的支持。在本文中,我们将探讨zookeeper的基础知识,然后解释一个在模拟的微型分布式环境中建立和部署zookeeper集群的指南。最后我们将提供如何在流行的项目中使用zookeeper的示例。
2018-02-26 10:44:05 178
原创 异步化和缓存原则
异步化和缓存两个技术都与系统的性能有很大的关系,当今分布式应用架构,如果不能很好的掌握这两项技术,所设计出的应用将很难有优质的性能表现。这里将介绍的是:分布式架构中,如何通过业务流程异步化, 也就是通过服务异步调用的方式让业务流程中业务逻辑上允许同步执行的服务同时被调用,从而解决了大量远程服务线性调用带来的性能问题。接着介绍数据进行分库分表后,数据在进行异步操作的场景下,阿里采用哪些
2018-02-08 12:03:31 887
原创 关于微服务
阿里的共享服务体系建设的过程和现状,和微服务典型特征不谋而合。随着微服务理念的越来越深入人心,加上最近几年基于容器化技术docker的不断盛行。在这里基于微服务架构的典型特征逐一进行剖析,让更多计划构建微服务应用或架构的朋友能更清晰准确的看到微服务建设的本质。微服务架构的典型特征:分布式服务组成的系统按照业务而不是技术来划分做有生命的产品而不是项目智能化服务端点与傻瓜式服务编排
2018-02-08 12:01:21 435
原创 共享服务体系搭建
一个服务中心不单单是在企业的几个应用中发挥作用,它可能会给企业上百个不同的应用提供专业服务,一旦这个服务中心出了问题,将会对业务的运营产生估量的损失和影响.这样就对服务中心的服务稳定性,服务能力的扩展性,服务需求的快速响应能力提出了前所未有的更高要求.技术框架选择平台能力技术实现分布式服务框架的选择过去:几百个人维护一个几百兆的WAR包模式:1 项目团队间
2018-02-08 12:00:54 1573
原创 解决问题的方法:构建业务中台的基础——共享服务体系
回归SOA的本质---服务重用如今比较火的微服务概念其实也是SOA方法经过演变后的另一种呈现方式而已。正如上一篇文章中说的那样,当SOA在企业客户中落地时,几乎无一例外是通过搭建企业的ESB(企业服务总线),使各个系统以服务封装或服务调用的方式实现了不同系统间的业务交互。SOA理念的核心价值是松耦合的服务带来业务的复用,通过服务的编排助力业务的快速响应和创新,这些观念其实在SOA项目的
2018-02-08 11:58:32 9409 1
原创 传统IT架构的问题
1 详细介绍共享服务理念给企业业务发展带来的业务价值2 阿里巴巴在建设共享服务体系时如何进行技术框架的选择,哪些重要的技术平台支撑起了共享服务体系3 阿里巴巴内部的一些经验和实践,入组织的架构和体制如何更好的支持共享服务体系的持续发展4 最后结合两个典型案例来介绍如何在实际工作中应用共享服务体系从supercell模式说起:这家游戏公司经过6年的时间将游戏开发过程中公共
2018-02-08 11:56:27 7746
原创 以经典的3节点来部署下哨兵集群
哨兵的配置文件是sentinel.conf 在redis的目录下最小配置 每个哨兵都可以去监控多个master-slaves的主从架构,因为可能公司里,为不同的项目配置了多个master-slaves的redis主从集群,自己可以给每个redis主从集群分配一个逻辑的名称,例如这里分配的逻辑名称就是mymaster 和 resque 也就是说这里有两套redis的主从集群
2018-02-05 11:36:27 501
Fast_Data_Processing_with_Spark_2_-_Third_Edition
2018-02-08
Apress.Pro.Spark.Streaming.The.Zen.of.Real-Time.Analytics.Using.Apache.Spark
2018-02-08
Packt.Big.Data.Analytics.with.Spark.and.Hadoop
2018-02-08
Spark for Data Science
2018-02-08
基于Spark-Graphx的大规模用户图计算和应用 完整高清
2018-02-08
算法导论中文版
2018-02-02
ApacheSparkGraphProcessing
2018-02-08
Packt.Mastering.ElasticSearch.5.0.3rd.Edition.1786460181
2018-02-07
Hands-On Machine Learning with Scikit-Learn and TensorFlow
2018-02-07
Building Machine Learning Projects with TensorFlow
2018-02-07
Packt.TensorFlow.Machine.Learning.Cookbook.2017
2018-02-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人