双版本数据加载的系统设计

最新推荐文章于 2022-08-20 16:31:48 发布

zhanglehes

最新推荐文章于 2022-08-20 16:31:48 发布

阅读量228

点赞数

分类专栏：架构文章标签：双版本数据加载

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhanglehes/article/details/126386881

版权

架构专栏收录该内容

30 篇文章 0 订阅

订阅专栏

概述

很多服务依赖数据版本迭代。如搜索系统，每天会产生一个全量索引版本。路网系统，每天会加载新版本的路网数据。一个简单的做法是每次更新数据版本时，都停止服务，重新加载最新的数据（通常在流量最低的时间点）。但这种做法显然不够优雅。更常用的方案是加载双版本数据，动态切换，而不需要停止服务。本文介绍这种方案的一种实现方式。

架构图

核心环节

数据推送服务将最新版本的数据推送到各个服务器上，并将数据同步状态同步到版本管理中心；
当版本管理中心接收到所有服务均收到最新版本数据时，会下发加载该数据版本的命令；
服务接收到新加载数据版本命令时，先对数据进行校验（md5），然后在加载进内存中；
版本管理中心同样会下发卸载命令，将某一版本中的数据从内存中卸载；
版本管理中心还会下发数据删除命令，将某一版本中的数据从磁盘上删除；
当版本管理中心接收到所有服务均完成最新版本数据加载后，可以切换稳定版本id；

问答

1、数据推送如何保障数据的完整性？

答：一般数据推送会由专门的团队负责，主要会考虑各机器的流量均衡，使用p2p的方式加速传输。

2、服务端如何保证数据的完整性？

答：通过md5校验能确保完整性。会消耗一定的性能。最简单的方式可以在推送完成后，添加一个标签文件，但这种方式的容错性较低。

3、数据加载与卸载的顺序

答：先加载的方式。好处：加载失败后容易回退到之前的状态；坏处：会消费很多的内存。先卸载的方式。好处：内存使用不会超过平时状态；坏处：一旦后续加载新版本失败，处理比较麻烦。

4、版本中心提供sdk与client的区别

答：使用client的方式部署比较麻烦。在大数据交互的场景，使用sdk的性能更高（直接加载到进程中）。Client的方式可以做到与服务的隔离，对于服务的稳定性有好处。

5、如果有数据分片，如何控制每台机器加载哪几个分片？

答：添加了分片维度，对系统的复杂度提升了一个量级，不过基本的流程还是一样的，都是由版本管理中心来进行中心控制。

6、数据拉取由各服务自己拉取，还是有单独的推送服务推送？

答：数据由服务自己拉取，这样的好处是架构简单，数据统一存储在数据中心。坏处是所有的机器可能同一时间都向数据中心要数据，会造成数据中心异常繁忙，网络传输的效率低下。使用单独的数据推送服务，整体系统的复杂度上升，推送服务需要和版本管理中心保持通信，实时同步推送状态。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
双版本数据加载的系统设计

很多服务依赖数据版本迭代。如搜索系统，每天会产生一个全量索引版本。路网系统，每天会加载新版本的路网数据。一个简单的做法是每次更新数据版本时，都停止服务，重新加载最新的数据（通常在流量最低的时间点）。但这种做法显然不够优雅。更常用的方案是加载双版本数据，动态切换，而不需要停止服务。本文介绍这种方案的一种实现方式。...
复制链接

扫一扫

专栏目录

zhanglehes CSDN认证博客专家 CSDN认证企业博客

码龄14年

155: 原创

3万+: 周排名

1万+: 总排名

18万+: 访问

: 等级

2310: 积分

104: 粉丝

161: 获赞

18: 评论

320: 收藏

私信

关注

热门文章

分类专栏

线上问题分析 11篇
git 2篇
数学 9篇
源码分析 18篇
操作系统 18篇
路径规划 7篇
技术心得 3篇
golang深入 18篇
通信协议 1篇
golang标准库 3篇
golang读书笔记 8篇
golang
golang常用库 1篇
leecode 5篇
lua 2篇
c++ 33篇
数据结构 2篇
python 5篇
算法 9篇
linux 7篇
架构 30篇
网络编程 3篇
zookeeper 4篇

最新评论

隐马尔可夫模型在map-matching中的应用
苏颜蒙: 转移概率矩阵不对了吧，横向概率和应该是1才对
Golang Http RoundTrip解析
Chenal两个维度: 引用「numExpectedResponses」 1、numExpectedResponses 从上下文看这个字段的功能应该是发出请求后期望得到应答的次数。 2、在readLoop中，如果是初次请求numExpectedResponses ==0的判断正常来说会立刻进入，导致pconn关闭（net.conn伴随关闭），这个成员之后在后续的调用次序中的(pc *persistConn) roundTrip函数中才会++，所以必然有其它措施防止进入该判断>>关注到该判断之前有peek()调用数据，因为还未发起请求所以peek调用内会触发bufio的fill，这个方法会连续尝试100次数据读取，触发的是(pc *persistConn) Read>>net.conn.read，tcp传输层的read一般都是堵塞的，所以100次等待足够到(pc *persistConn) roundTrip执行，所以避免了关闭（除非极度异常的情况下） >>>numExpectedResponses==0的含义可能不是sever端断开链接，而是等待足够久后还未接收到应答数据。
kafka-go源码解析三（Reader）
sunshine tome: 如果是多个分区就需要开启多个reader吗
C++ json-cpp库的基本使用方法
蛋超饭不要加蛋: 支持博主，已三连
C++编译时遇到protobuf版本不一致的问题
zhanglehes: 那可能是你新加入的项目的protoc版本和项目已有的版本不兼容

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。