淘宝高并发访问数据库设计

周末参加了@淘宝技术嘉年华 主办的技术沙龙, 感觉收获颇丰,非常感谢淘宝人的分享。这里我把淘宝下单高并发解决方案的个人理解分享一下。我不是淘宝技术人员,本文只是写自己的理解,所以肯定是会有一些出入的。

在session中牧劳为我们介绍了淘宝下单部分的技术方案变迁,我不介绍变迁,而只对现有系统做介绍。

要优化下单,提高下单的TPS (Transaction per second),我们首先要做的是对下单的逻辑剥离,只保留核心部分,而把附加功能剔除出去。比如说下单要考虑库存量,考虑发短信,要给卖家发旺旺消息通知,要对订单做统计,要做销售额统计等等,这些功能是必要的,但是也是附加的功能,要最大程度提高下单这一步的TPS,就要先不考虑这些东西。

下单必然会涉及到买家查看订单,和卖家查看收到的订单,修改订单价格等,这是下单的核心。 在下单这个操作中有买家和卖家两个密切关联而有不同的视角。牧劳称为两个不同的维度。据牧劳的介绍下单这一步只有5张表,这5张表涵盖了这两个维度的操作。

下单是在一个数据库事务中进行的,要提高数据库的事务并发数,最有效的办法是拆分,拆分有两种,一是对库进行拆分,另一种是在同一个库中对表进行拆分。要做拆分首先就要考虑拆分依据的字段,淘宝是根据订单号做拆分的,而下单中有两个维度,买家和卖家,对订单做拆分之后,必须还是可以通过买家,卖家方便的查询着两个维度的数据。该怎么办呢?这里留个疑问,我先介绍淘宝拆分的规模,淘宝将订单表拆分到16个mysql库中,而在每个库中又将订单表横向拆分为64份,相当于将一个表拆分为1024份。拆分之后事务会分散到1024套表中,这必然会很大程序上增加并发的事务处理能力(这儿我说是必然,但是淘宝在使用这种方案之前是要经过压力测试,实际测试出这种方案的TPS之后,才会逐步采用这种方案的)。上面留了一个疑问,经过拆分之后如何保证买家卖家快速的查询其下的订单呢?最好的办法是保证买家,卖家下的订单在一张表中,如何保证呢?淘宝的做法是将买家的id取模后放到订单号中。假定一个订单号是142424594267664;这个订单号对应的订单该放在哪台服务器上的哪个表中,是根据订单的后四位7667,对1024取模之后决定的;同时7667是买家id的后四位。这样买家在查询其订单时就可以通过其id获得其订单所在库以及表,就可以方便有效的查询买家订单了。这里会带来另外一个问题,卖家查询订单时怎么办?前面我们已经提到卖家和买家被分成两个不同的维度来做表设计,卖家查询时不是直接查订单表,而是通过卖家维度的表来做查询。卖家维度的表的插入,更新是通过在订单插入时发一个消息来通知插入的。同样对于发短信、发旺旺也是通过消息来处理的,这些附加功能不参与到下单的事务中去。

即使这样做了库,表的拆分,依然会有问题。淘宝在双11时的一天的交易量就达到了5000多万,这样几个月过去后,这些拆分后的表中的数据量也会达到很大的一个量,处理速度就会下降。淘宝的做法是把三个月之前的老数据迁移到其他库中,这样就避免了数据量增大导致的系统响应时间降低的问题。但是会带来另外一个问题,用户在查询订单时需要同时查两个库,一个是历史数据表,另一个是近期数据表;这个问题无可避免,就是通过查询两次解决。

也许有的朋友会想到拆分之后对全数据做统计会有问题。如果在拆分后的表上做统计,是肯定会有问题的。怎么做呢?其实很简单,把数据迁移到别的库中去做统计。

表做拆分可以大大的提高TPS,但是也会带来一些问题,需要通过可靠的消息通知机制通知其他模块做非核心处理的事情,需要通过高效的搜索系统保证搜索数据的及时更新。

以上是我个人对淘宝下单高并发设计的理解。这是肤浅的,实际做的时候肯定还需要考虑更多的问题,比如数据库的调优,磁盘IO方式,服务器稳定性;方案的可测试性,可量化等等。

上周六的技术还分享介绍了很多其他方面的精彩内容。感谢主办方,主持人! 期待@淘宝技术嘉年华 更多精彩的技术沙龙。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 感谢您的提问!以下是我推荐的几个高效且易用的读写数据库的库: 1. SQLAlchemy:这是一个 Python 的 ORM(Object Relational Mapping)库,提供了对多种关系型数据库的支持,包括 PostgreSQL、MySQL、SQLite、Oracle 等等。它能够实现数据库操作的抽象,使得编写和维护数据库相关的代码更加简单和方便。 2. PyMySQL:这是一个纯 Python 实现的 MySQL 客户端库,适用于 Python 2.x 和 3.x 版本,支持执行 SQL 语句、事务处理、数据类型转换等等。 3. Psycopg2:这是一个 PostgreSQL 的 Python 客户端库,提供了对 PostgreSQL 数据库的连接、查询、事务处理等等操作的支持。 4. MongoDB:这是一个文档型 NoSQL 数据库,提供了对数据存储和检索的支持,具有高可扩展性和高性能的特点。在 Python 中,pymongo 库是对 MongoDB 数据库进行操作的主要工具。 以上是我推荐的一些 Python 中常用的数据库操作库,具体使用时您可以根据自己的需要选择适合自己的库进行开发。 ### 回答2: 高并发读写数据库是指在同一时间内有大量同时连接数据库进行读写操作的情况。在面对高并发读写数据库时,可以考虑以下几点推荐: 1. 水平扩展:通过增加数据库服务器的数量来分担负载,可以使用数据库集群或分布式系统来实现。这样可以将请求分散到多台服务器上,提高读写效率和数据库的处理能力。 2. 缓存技术:可以使用缓存技术来减轻数据库的读写压力。通过将热门数据缓存在内存中,减少数据库的读取次数,提高读取速度。常用的缓存技术有Redis、Memcached等。 3. 数据库优化:优化数据库的结构和性能,包括合适的索引设计、适当的表分片等。通过合理地使用索引可以加快查询速度,表分片可以将数据分散存储在多个表中,避免单表过大造成的性能瓶颈。 4. 异步处理:对于一些不需要实时响应的操作,可以将其放入消息队列中异步处理,减少数据库的读写压力。例如,将用户的上传操作放入消息队列中,由后台异步处理,可以提高数据库的性能。 5. 数据库连接池:使用数据库连接池可以减少数据库连接的重复创建和销毁,提高连接的复用率。 6. 数据库读写分离:将数据库的读操作和写操作分离,使用不同的数据库服务器处理。这样可以将读操作负载均衡到多台服务器上,提高数据库的读性能。 综上所述,高并发读写数据库可以通过水平扩展、缓存技术、数据库优化、异步处理、数据库连接池和数据库读写分离等方式来进行优化。根据具体的业务场景和需求,可以选择合适的方案进行应用。 ### 回答3: 高并发读写数据库是指在短时间内有大量的并发请求涉及到数据库的读取和写入操作。为了解决这个问题,以下是一些推荐措施: 1. 数据库优化:对数据库进行适当的调优,包括合理的索引设计、表分区、查询优化等,以提高数据库的读写性能。 2. 缓存机制:可以使用缓存来减轻数据库的读写压力。将常用的数据缓存在内存中,减少数据库访问次数,从而提高并发读取的性能。 3. 异步处理:将一些可以异步处理的任务放入消息队列或者后台线程中,减少主线程对数据库的压力。例如,将写入操作放入消息队列中由后台线程处理,避免阻塞主线程。 4. 数据分片:将数据进行分片存储,使得每个片段只有部分数据,可以减少数据库访问冲突,提高并发读写的效率。 5. 垂直扩展和水平扩展:可以通过垂直扩展(增加硬件资源)和水平扩展(增加数据库节点)来提高数据库的并发读写能力。 6. 使用缓冲区:可以使用缓冲区将一些写入操作临时存储起来,延迟向数据库写入,从而减少瞬时的写入压力。 7. 数据库连接池:合理使用数据库连接池,复用数据库连接,减少数据库连接的创建和销毁的开销。 8. 压测和性能监控:进行压力测试,对数据库进行性能监控,及时发现性能瓶颈,并作出相应的调整和优化。 总之,高并发读写数据库的关键是优化数据库的结构和使用合适的技术手段来分散并发请求,提高数据库的读写性能和吞吐量。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值