2018年02月_yyqq188

12月 11月 09月 08月 06月 05月 04月 03月 02月 01月

原创 kafka是数据处理的未来？

kafka能够通过kafka connect API实现流数据管道的构建，也就是ETL中的E和L，connect API利用了kafka的可扩展性，基于kafka的容错模型进行构建并且提供了一种统一的方式监控所有的连接器。流处理转换可以通过Kafka Stream API来实现，这提供了ETL中的T，来自source的数据经过抽取后可以作为结构化的事件放到平台中，然后可以通过流处理进行任意的转

2018-02-28 11:42:29 540

原创 (1)kafka综述和技术细节

kafka不仅仅是一个简单的消息队列，这个很片面，它是一个完备的流式数据平台，具备下面三个特点1 类似消息系统2 数据存储功能3 能够对实时事件流进行流式处理分析展开来说：消息系统有两种消息模型，队列和发布订阅模型存储系统是数据会保存到磁盘中。流处理系统：简单的处理，可以直接使用kafka的生产者和消费者的API来完成，但对于复杂的业务逻辑处理，直接操

2018-02-27 16:45:36 262

原创如何为Kafka集群选择合适的Topic/Partitions数量

介绍一些与本问题相关的一些重要决策因素，并提供一些简单的计算公式越多的分区可以提供更高的的吞吐首先要明白，在kafka中，单个partition是kafka并行操作的最小单元，在producter和broker端，向每一个分区写入数据是完全可以并行的，此时，可以通过加大硬件资源的利用率来提升系统的吞吐量，例如对数据进行压缩，在consumer端，kafka只允许单个partition的数据

2018-02-27 14:01:01 9713

原创通过flume进行简单的ETL工作

一般提起大数据的实时流处理，我们首先会想到复杂的storm spark kafka 等等，但是如果只是针对单条记录进行简单的ETL运算，使用Flume+Morphlines不失为一种优雅简约的方法flume是apache开源的项目，是一个分布式的，可靠的软件系统，主要是从大量的分散的数据源中收集，汇聚以及迁移大规模的日志数据，最后存储到一个集中的数据系统中。flume是由运行在不同主机系

2018-02-26 18:18:21 3769

原创如何解决机器学习中的数据不平衡问题

越来越多的机器学习算法从学术界走向工业界，而在这个过程中会有很多困难，数据不平衡问题虽然不是最难的，但绝对是最重要的问题之一。一数据不平衡在学术研究和教学中，很多算法都有一个基本假设，就是数据分布是均匀的。当我们把这些算法直接应用在实际数据中时，大多数情况下都无法取得理想的结果，因为实际数据往往分布的很不均衡，都存在长尾效应。可以看到大部分微博的总互动数（被转发，评论和点赞

2018-02-26 14:28:47 5283

原创 zookeeper基础知识和应用程序

zookeeper是一个面向应用程序的高性能协调服务器，它使用一个简单的接口暴露公共服务（比如命名和配置管理，同步和组服务），让用户不必从头开始编程，它为实现共识，组管理，领导者选举和到场协议配备了现成的支持。在本文中，我们将探讨zookeeper的基础知识，然后解释一个在模拟的微型分布式环境中建立和部署zookeeper集群的指南。最后我们将提供如何在流行的项目中使用zookeeper的示例。

2018-02-26 10:44:05 178

原创异步化和缓存原则

异步化和缓存两个技术都与系统的性能有很大的关系，当今分布式应用架构，如果不能很好的掌握这两项技术，所设计出的应用将很难有优质的性能表现。这里将介绍的是：分布式架构中，如何通过业务流程异步化，也就是通过服务异步调用的方式让业务流程中业务逻辑上允许同步执行的服务同时被调用，从而解决了大量远程服务线性调用带来的性能问题。接着介绍数据进行分库分表后，数据在进行异步操作的场景下，阿里采用哪些

2018-02-08 12:03:31 887

原创关于微服务

阿里的共享服务体系建设的过程和现状，和微服务典型特征不谋而合。随着微服务理念的越来越深入人心，加上最近几年基于容器化技术docker的不断盛行。在这里基于微服务架构的典型特征逐一进行剖析，让更多计划构建微服务应用或架构的朋友能更清晰准确的看到微服务建设的本质。微服务架构的典型特征：分布式服务组成的系统按照业务而不是技术来划分做有生命的产品而不是项目智能化服务端点与傻瓜式服务编排

2018-02-08 12:01:21 435

原创共享服务体系搭建

一个服务中心不单单是在企业的几个应用中发挥作用,它可能会给企业上百个不同的应用提供专业服务,一旦这个服务中心出了问题,将会对业务的运营产生估量的损失和影响.这样就对服务中心的服务稳定性,服务能力的扩展性,服务需求的快速响应能力提出了前所未有的更高要求.技术框架选择平台能力技术实现分布式服务框架的选择过去:几百个人维护一个几百兆的WAR包模式:1 项目团队间

2018-02-08 12:00:54 1573

原创解决问题的方法：构建业务中台的基础——共享服务体系

回归SOA的本质---服务重用如今比较火的微服务概念其实也是SOA方法经过演变后的另一种呈现方式而已。正如上一篇文章中说的那样，当SOA在企业客户中落地时，几乎无一例外是通过搭建企业的ESB（企业服务总线），使各个系统以服务封装或服务调用的方式实现了不同系统间的业务交互。SOA理念的核心价值是松耦合的服务带来业务的复用，通过服务的编排助力业务的快速响应和创新，这些观念其实在SOA项目的

2018-02-08 11:58:32 9409 1

原创传统IT架构的问题

1 详细介绍共享服务理念给企业业务发展带来的业务价值2 阿里巴巴在建设共享服务体系时如何进行技术框架的选择，哪些重要的技术平台支撑起了共享服务体系3 阿里巴巴内部的一些经验和实践，入组织的架构和体制如何更好的支持共享服务体系的持续发展4 最后结合两个典型案例来介绍如何在实际工作中应用共享服务体系从supercell模式说起：这家游戏公司经过6年的时间将游戏开发过程中公共

2018-02-08 11:56:27 7746

原创以经典的3节点来部署下哨兵集群

哨兵的配置文件是sentinel.conf 在redis的目录下最小配置每个哨兵都可以去监控多个master-slaves的主从架构，因为可能公司里，为不同的项目配置了多个master-slaves的redis主从集群，自己可以给每个redis主从集群分配一个逻辑的名称，例如这里分配的逻辑名称就是mymaster 和 resque 也就是说这里有两套redis的主从集群

2018-02-05 11:36:27 501

2018年美团点评技术年货（下）

2018年美团点评技术年货（下） 2018年美团点评技术年货（下）

2018-02-09

2018年美团点评技术年货（合）

2018年美团点评技术年货（合） 2018年美团点评技术年货（合）

2018-02-09

强化学习在阿里巴巴上的技术创新

强化学习在阿里巴巴上的技术创新强化学习在阿里巴巴上的技术创新

2018-02-08

程序员面试金典第5版

程序员面试金典第5版程序员面试金典第5版程序员面试金典第5版

2018-02-08

Java面试宝典2014版面试宝典

Java面试宝典2014版面试宝典 Java面试宝典2014版面试宝典

2018-02-08

JAVA程序员面试宝典第4版(带书签高清扫描版)欧立奇

JAVA程序员面试宝典第4版(带书签高清扫描版)欧立奇完成清晰

2018-02-08

系统架构设计师教程第3版带书签目录完整版

系统架构设计师教程第3版带书签目录完整版系统架构设计师教程第3版带书签目录完整版

2018-02-08

Fast_Data_Processing_with_Spark_2_-_Third_Edition

Fast_Data_Processing_with_Spark_2_-_Third_Edition Fast_Data_Processing_with_Spark_2_-_Third_Edition

2018-02-08

Apress.Pro.Spark.Streaming.The.Zen.of.Real-Time.Analytics.Using.Apache.Spark

2018-02-08

Packt.Big.Data.Analytics.with.Spark.and.Hadoop

Packt.Big.Data.Analytics.with.Spark.and.Hadoop Packt.Big.Data.Analytics.with.Spark.and.Hadoop

2018-02-08

Packt.Mastering.Apache.Spark

Packt.Mastering.Apache.Spark Packt.Mastering.Apache.Spark

2018-02-08

Spark for Data Science

Spark for Data Science Spark for Data Science Spark for Data Science

2018-02-08

基于Spark-Graphx的大规模用户图计算和应用完整高清

基于Spark-Graphx的大规模用户图计算和应用完整高清基于Spark-Graphx的大规模用户图计算和应用完整高清

2018-02-08

38张史上最全的IT工程师（高清）

这些图谱收集在一起，并且归类便于查找和学习，希望能够帮助到每一位想成为架构师或者已经是架构师的小伙伴。

2018-02-05

该书是一本十分经典的计算机算法书籍，与高德纳（Donald E.Knuth）的《计算机程序设计艺术》（The Art Of Computer Programming）相媲美。《算法导论》由Thomas H.Cormen、Charles E.Leiserson、Ronald L.Rivest、Clifford Stein四人合作编著（其中Clifford Stein是第二版开始参与的合著者）。本书的最大特点就是将严谨性和全面性融入在了一起

2018-02-02