日均百亿级日志处理:微博基于Flink的实时计算平台建设 是随着微博业务线的快速扩张,微博广告各类业务日志的数量也随之急剧增长。传统基于Hadoop生态的离线数据存储计算方案已在业界形成统一的默契,但受制于离线计算的时效性制约,越来越多的数据应用场景已从离线转为实时。微博广告实时数据平台以此为背景进行设计与构建,目前该系统已支持日均处理日志数量超过百亿,接入产品线、业务日志类型若干。...
ClickHouse在腾讯游戏营销效果分析中的探索实践 营销活动作为游戏运营的一种重要手段,可以灵活快速的配合游戏各个运营节点的需要而推出,不受游戏版本节奏的影响。而面对数量众多的营销活动和不同的业务诉求,如何在海量日志中评价营销的效果是一个典型的多维分析问题,本次分享主要介绍腾讯游戏营销效果分析的一些概况以及ClickHouse的应用实践情况。通过实践表明,ClickHouse完美解决了查询瓶颈,20亿行以下的数据量级查询,90%可以在亚秒(1秒内)给到结果。...
阿里云ClickHouse海量数据分析 2020年clickhouse就是一批黑马,成功脱颖而出,在各大互联网都受到青睐,头条、腾讯、快手、阿里都在使用clickhouse,下面我们一起来学习一下阿里巴巴在clickhouse中的经验分享。
微信 ClickHouse 实时数仓的最佳实践 微信作为一款国民级应用,已经覆盖了社交、支付、出行等人们生活的方方面面。海量多样化的业务形态,对数据分析提出了新的挑战。为了满足业务数据分析的需求,微信 WeOLAP 团队联手腾讯云,共建千台规模、数据 PB 级、批流一体的 ClickHouse 数据仓库,实现了 10 倍以上的性能提升。...
Tomcat 优雅关闭 本文通过阅读Tomcat启动和关闭流程的源码,深入分析不同的Tomcat关闭方式背后的原理,让开发人员能够了解在使用不同的关闭方式时需要注意的点,避免因JVM进程异常退出导致的各种非预见性错误。...
稳定性全系列(一):如何做好系统稳定性建设 系统稳定性是指系统要素在外界影响下表现出的某种稳定状态。为了方便,本文阐述的系统主要指软件系统。那么如何衡量系统稳定性的高与低呢?一个常用的指标就是服务可用时长占比,占比越高说明系统稳定性也越高,如果我们拿一整年的数据来看,常见的 4 个 9(99.99%)意味着我们系统提供的服务全年的不可用时长只有 52 分钟!它其实是一个综合指标,为什么这么说?因为我们在服务可用的定义上会有一些差别,常见的服务可用包括:服务无异常、服务响应时间低、服务有效(逻辑正确)、服务能正常触发 等。...
istio简介(服务网格Service Mesh) Istio提供一种简单的方式来建立已部署的服务的网络,具备负载均衡,服务到服务认证,监控等等功能,而不需要改动任何服务代码。简单的说,有了Istio,你的服务就不再需要任何微服务开发框架(典型如Spring Cloud,Dubbo),也不再需要自己手动实现各种复杂的服务治理功能(很多是Spring Cloud和Dubbo也不能提供的,需要自己动手)。只要服务的客户端和服务端可以进行简单的直接网络访问,就可以通过将网络层委托Istio,从而获得一系列的完备功能。......
Docker简介 一、解决的问题由于不同的机器有不同的操作系统,以及不同的库和组件,在将一个应用部署到多台机器上需要进行大量的环境配置操作。Docker 主要解决环境配置问题,它是一种虚拟化技术,对进程进行隔离,被隔离的进程独立于宿主操作系统和其它隔离的进程。使用 Docker 可以不修改应用程序代码,不需要开发人员学习特定环境下的技术,就能够将现有的应用程序部署在其它机器上。二、与虚拟机的比较虚拟机也是一种虚拟化技术,它与 Docker 最大的区别在于它是通过模拟硬件,并在硬件上安装操作系统来实现.
布隆过滤器 本质上布隆过滤器是一种数据结构,比较巧妙的概率型数据结构,特点是高效地插入和查询,用来告诉我们“某样东西一定不存在或者可能存在”。相比于传统的 List、Set、Map等数据结构,它更高效、占用空间更少,但是缺点是其返回的结果是概率性的,而不是确切的。拥有极高的性能,无论写入操作还是读取操作,时间复杂度是O(1)。用途: 解决Redis缓存穿透 在爬虫时,对爬虫网址进行过滤,已经存在布隆中的网址,不在爬取。 垃圾邮件过滤,对每一个发送邮件的地址进行判断是否在布隆的黑名单中,如果...
架构的演进 一、架构演进剖析1、架构演进定义【定义】通过设计新的系统架构(4R)来应对业务和技术的发展变化。【目的】1. 应对业务发展带来新的复杂度;2. 应用技术发展带来的复杂度新的解决方法。【关键】1. 新架构;2. 新的复杂度;3. 新的方法。2、架构重构 vs 架构演进3、架构演进的原则、驱动力和模式二、业务驱动的架构演进技巧1、架构演进模式 vs 业务发展模式2、不同用户规模的架构挑战3、业务驱动的主动演进技巧 - 做好...
浅谈HBase的数据分布 数据分布问题简述分布式产生的根源是“规模”,规模可理解为计算和存储的需求。当单机能力无法承载日益增长的计算存储需求时,就要寻求对系统的扩展方法。通常有两种扩展方式:提升单机能力(scale up),增加机器(scale out,水平扩展)。限于硬件技术,单机能力的提升在一个阶段内是有上限的;而水平扩展在理论上可以是无限的,同时,也更廉价、更容易落地。水平扩展可以通过快速、简单的“加机器”,有效解决业务快速增长的问题,这几乎是现代分布式系统必备的能力。对于爆发式增长的业务,水平扩展似乎是唯一可选择的方案。
全方位解读BI、数据仓库、数据湖和数据中台的内涵和差异 目录前言一 数据仓库1.1 数据仓库基本定义1.2 数据仓库系统作用和定位1.3 数据仓库能提供什么1.4 数据仓库系统构成二 数据湖2.1 维基百科对数据湖的定义2.2 数据湖能给企业带来多种能力2.3 数据仓库与数据湖差异三 数据中台3.1 产生的背景3.2 数据中台建设是数字化转型的关键支撑3.3 数据中台定义及处理架构3.4 数据中台带来价值四 传统数据仓库与数据中台的差异点结论前言随着大数据技术的不断更新和迭代,数据管
单元化架构在金融行业的最佳实践 导语近些年单元化架构在构建多地数据中心,以及如何应对海量请求高并发、低延时的场景中被频繁提及和讨论。单元化架构其实主要解决的是系统扩容、多数据中心容灾、异地访问等方面出现的问题,本文将从单元化概念及优劣势、如何基于TSF建设单元化架构、某国有大行的单元化落地实践三方面进行分享。认识单元化1. 单元化是怎么来的呢?系统架构在前中期的快速发展阶段,往往更多的是考虑如何快速上线,中台如何支撑更多的系统。但单个机房整体的资源利用率总会存在上限,即使各种技术优化手段再有效,也很难有明显提升,那么单一机
高德服务单元化方案和架构实践 导读:本文主要介绍了高德在服务单元化建设方面的一些实践经验,服务单元化建设面临很多共性问题,如请求路由、单元封闭、数据同步,有的有成熟方案可以借鉴和使用,但不同公司的业务不尽相同,要尽可能的结合业务特点,做相应的设计和处理。一、为什么要做单元化 单机房资源瓶颈 随着业务体量和服务用户群体的增长,单机房或同城双机房无法支持服务的持续扩容。 服务异地容灾 异地容灾已经成为核心服务的标配,有的服务虽然进行了多地多机房部署,但数据还是只在中心机房,实现真正意义上的异地多活..
千亿级数据迁移mongodb成本节省及性能优化实践 线上某 IOT 核心业务集群之前采用 mysql 作为主存储数据库,随着业务规模的不断增加,mysql 已无法满足海量数据存储需求,业务面临着容量痛点、成本痛点问题、数据不均衡问题等。该业务存储用户 IOT 相关数据,同时凌晨低峰期通过 MongoDB Spark Connector 链接集群做大数据分析。此外,迁移时候的 mysql 数据为 400 亿,3 个月后的现在对应 mongodb 集群数据已增长到 1000 亿,如果以 1000 亿数据规模等比例计算成本,实际成本节省比例会更高。同时,有