经典大数据架构案例:酷狗音乐的大数据平台重构

本文详述了酷狗音乐大数据平台重构的过程,包括重构原因、新一代技术架构、遇到的挑战以及持续改进。原有架构基于Hadoop1.x+hive,存在数据采集混乱、接入问题、数据清洗和调度难题。重构后引入了实时计算,优化了数据流架构,提升了数据的时效性和价值。新一代架构包括数据实时采集、清洗、缓存、存储计算等环节,采用Kafka、Storm、HDFS、Spark等技术,并通过数据质量监控确保稳定性。在重构过程中,面临操作系统、架构设计和开源组件的挑战,通过不断优化和调整,实现了大数据平台的高效运行。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

酷狗音乐的大数据架构本身很经典,而这篇讲解了对原来的架构上进行重构的工作内容,总共分为重构的原因、新一代的大数据技术架构、踩过的坑、后续持续改进四个部分来给大家谈酷狗音乐大数据平台重构的过程。
眨眼就是新的一年了,时间过的真快,趁这段时间一直在写总结的机会,也总结下上一年的工作经验,避免重复踩坑。酷狗音乐大数据平台重构整整经历了一年时间,大头的行为流水数据迁移到新平台稳定运行,在这过程中填过坑,挖过坑,为后续业务的实时计算需求打下了很好的基础。在此感谢酷狗团队成员的不懈努力,大部分从开始只知道大数据这个概念,到现在成为团队的技术支柱,感到很欣慰。【大数据开发学习资料领取方式】:加入大数据技术学习交流群,点击加入群聊,私信管理员即可免费领取

从重构原因,技术架构,踩过的坑,后续持续改进四个方面来描述酷狗音乐大数据平台重构的过程,在此抛砖引玉,这次的内容与6月份在高可用架构群分享的大数据技术实践的有点不同,技术架构做了些调整。

其实大数据平台是一个庞大的系统工程,整个建设周期很长,涉及的生态链很长(包括:数据采集、接入,清洗、存储计算、数据挖掘,可视化等环节,每个环节都当做一个复杂的系统来建设),风险也很大。

重构原因

在讲重构原因前,先介绍下原有的大数据平台架构,如下图:

从上图可知,主要基于Hadoop1.x+hive做离线计算(T+1),基于大数据平台的数据采集、数据接入、数据清洗、作业调度、平台监控几个环节存在的一些问题来列举下。

数据采集:
数据收集接口众多,且数据格式混乱,基本每个业务都有自己的上报接口
存在较大的重复开发成本
不能汇总上报,消耗客户端资源,以及网络流量
每个接口收集数据项和格式不统一,加大后期数据统计分析难度
各个接口实现质量并不高,存在被刷,泄密等风险

 

图片发自简书App

数据接入:
通过rsync同步文件,很难满足实时流计算的需求
接入数据出现异常后,很难排查及定位问题,需要很高的人力成本排查
业务系统数据通过Kettle每天全量同步到数据中心,同步时间长,导致依赖的作业经常会有延时现象

数据清洗:
ETL集中在作业计算前进行处理
存在重复清洗

作业调度:
大部分作业通过crontab调度,作业多了后不利于管理
经常出现作业调度冲突

平台监控:
只有硬件与操作系统级监控
数据平台方面的监控等于空白

基于以上问题,结合在大数据中,数据的时效性越高,数据越有价值(如:实时个性化推荐系统,RTB系统,实时预警系统等)的理念,因此,开始大重构数据平台架构。

新一代大数据技术架构

在讲

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值