PaaS 平台学习（开源力量OSF）构建千万级大规模、高可靠PaaS平台的技术挑战学习笔记

最新推荐文章于 2024-05-18 09:58:48 发布

编程圈子

最新推荐文章于 2024-05-18 09:58:48 发布

阅读量4.4k

点赞数

分类专栏：架构文章标签： PaaS 云服务即时通讯负载均衡云通讯平台

本文链接：https://blog.csdn.net/xundh/article/details/42681439

版权

架构专栏收录该内容

34 篇文章 2 订阅

订阅专栏

感谢许志强老师的辛苦付出。2015年1月13日参加云通讯PaaS平台学习，特作此记录。

大纲：

选择Paas平台的考量（我的企业是否适合选PaaS平台，我应该选怎么样的PaaS平台）
基于PaaS平台的开发、测试、部署和迁移的流程、关键技术和注意事项
如何构建能支持千万级用户的大规模PaaS平台？技术挑战有哪些？有哪些经验和教训？
如何实现PaaS平台的高可靠性？
如何保证PaaS平台的安全性？

一、云通讯PaaS平台的挑战

客户业务突然爆发性增长
系统受到DDOS攻击
运营商政策调整，某些呼叫不能落地
IDC机房光纤被挖断
系统升级出现BUG，业务全停
业务主机H突然宕机：

二、可靠性追求

技术挑战

可靠性
扩展性
安全性
可管理性
经济性

可用性标准

5个9的追求：

Availability	Downtime/Year	Example
90%	36days 2hours	Personal clients
99%	87 hours 36 minutes	Entry-Level Business
99.9%	8 hours 46 minutes	ISP,mainstream Business
99.99%	52 minutes 33 seconds	Data Centers
99.999%	5 mintue 15 seconds	carrier-grade Telco,Banking
99.9999%	31.5 seconds	Militray defense system

高可用性——High Availability

清除单点故障
故障自动检测
故障隔离
运维操作Web化自动化

消除单点故障原则

常规方案，主备、集群Cluster负载均衡：
数据库分库、分表方案：
初始规划就要考虑。以前做运营商系统通常选择oracle Sybase，而互联网企业多用MySql。经典案例，余额宝，天宏基金早期是Oracle，后来与阿里合作，移植到MySql上。其单机无法与SyBase比，而是用许多数据库服务器进行分库分表。初期就要考虑分库分表，后期改成本会相当高。
大系统小做：
许多人刚开始策划功能都会想的非常复杂，但其可靠性难以得到保证。设计大的系统一定要往小的做，尽可能降低交互的复杂性，不要设计的非常复杂，交互其中一个环节有问题都会导致故障。
系统里一个小的部分，尽量完成单一职责，不要很多事情一起做。单个服务高内聚、低耦合。参考文章：http://martinfowler.com/articles/microservices.html。
一个系统过大，不利于扩展，出问题机率大。
尽可能做到无状态：nginx每次响应是独立的，这次请求与上次请求尽可能独立。（原子性）。
不是所有东西都可以无状态，如通信过程，发起、接听、摘机等，必须保存呼叫状态，这就必须有状态。这种情况下要做成分组，或子系统。假如所有有状态的请求能分配到不同组，系统出现故障影响小的分组，分组出问题就切换到另外分组。从分组角度看就是无状态。如A、B、C三组。在连接的时候选择一个服务节点。
异地部署、容灾
对于云服务提供商很重要，IT机房的可靠性也不是非常高，当部署到一个机房的服务不能使用时，对用户影响很大。所以必须要考虑异地部署、容灾。
不能做到无状态就需要分组

一个多机房系统的方案

通过智能DNS。

产生的问题：用户可能用公用的DNS，如谷歌的DNS 或其它开放的DNS，可能会造成判断的区域有问题。一般会做两层，智能DNS只是前置的识别，具体业务节点对真正IP进行二次路由。设置一个折中的时间进行DNS解析。

每个节点要能独自提供服务。

单IDC内部署结构

跨区域数据同步解决原则：

一致性：数据同步

可用性：一台宕机能不能再提供服务

分区容忍性：如北京与广州之间断了，还能不能分别提供服务；事实是要求能分别提供服务，这时对数据一致性要求就没那么高了。一般互联网对数据一致性要求可能不是那么高。

IVR服务：不是所有都全部一致，如果要强一致性，数据同步；

再如账单：也不是强一致性的。在某些系统里客户查询的余额不必是最终的结果。信用卡线下刷卡的方式，也是一段时间后同步过去。

使用Cassindra分布式NoSql数据库。

kafka消息队列缓冲是什么。

而传统的关系型数据库在处理一些数据时比NoSql更具优势，所以后端需要MySql支持。

关系型数据库与NoSql间要有数据同步，需要程序进行处理。

怎么做故障检测

设计系统时，就要考虑到系统会出现哪些故障。

原则：

在用户反馈前发现系统故障

如用户打电话，第一次打电话打不通，在第二次尝试时要能检测并解决问题。

分层次的故障检测：

最底层是机器的检测：如检测机房故障，转移DNS。检测机器故障，要把机器移除出来。
模块的检测：
业务功用的检测：模拟用户操作进行检测。

防止误检测保护：

检测本身有失误的情况，如IDC整个网络不通，判断故障之前不能整个机器Ping不通，就改了DNS。而要多种渠道确认故障。

运维自动化、WEB、数据化：

手工操作有极大的安全隐患，避免手工操作引起的系统问题，设计之初就要考虑可运维的、可自动运维的。
模块的升级、维护全部通过WEB进行。
通过收集的数据进行运维，设计时要考虑把数据采集进来，进行分析，提前预判一些故障。当发现某台机器ping 响应很久，就预示机器可能会出现故障；或机器的I/O非常高，预测磁盘可能出现问题；或带宽高等。通过运维的手段，使系统的可靠性提高。