影响数据检索效率的几个因素

数据检索有两种主要形态。第一种是纯数据库型的。典型的结构是一个关系型数据,比如 mysql。用户通过 SQL 表达出所需要的数据,mysql 把 SQL 翻译成物理的数据检索动作返回结果。第二种形态是现在越来越流行的大数据玩家的玩法。典型的结构是有一个分区的数据存储,最初这种存储就是原始的 HDFS,后来开逐步有人在 HDFS 上加上索引的支持,或者干脆用 Elasticsearc 这样的数据存储。然后在存储之上有一个分布式的实时计算层,比如 Hive 或者 Spark SQL。用户用 Hive SQL 提交给计算层,计算层从存储里拉取出数据,进行计算之后返回给用户。这种大数据的玩法起初是因为 SQL 有很多 ad-hoc 查询是满足不了的,干脆让用户自己写 map/reduce 想怎么算都可以了。但是后来玩大了之后,越来越多的人觉得这些 Hive 之类的方案查询效率怎么那么低下啊。于是一个又一个项目开始去优化这些大数据计算框架的查询性能。这些优化手段和经典的数据库优化到今天的手段是没有什么两样的,很多公司打着搞计算引擎的旗号干着重新发明数据库的活。所以,回归本质,影响数据检索效率的就那么几个因素。我们不妨来看一看。

数据检索干的是什么事情

定位 => 加载 => 变换

找到所需要的数据,把数据从远程或者磁盘加载到内存中。按照规则进行变换,比如按某个字段group by,取另外一个字段的sum之类的计算。

影响效率的四个因素

  • 读取更少的数据
  • 数据本地化,充分遵循底层硬件的限制设计架构
  • 更多的机器
  • 更高效率的计算和计算的物理实现

原则上的四点描述是非常抽象的。我们具体来看这些点映射到实际的数据库中都是一些什么样的优化措施。

读取更少的数据

数据越少,检索需要的时间当然越少了。在考虑所有技术手段之前,最有效果的恐怕是从业务的角度审视一下我们是否需要从那么多的数据中检索出结果来。有没有可能用更少的数据达到同样的效果。减少的数据量的两个手段,聚合和抽样。如果在入库之前把数据就做了聚合或者抽样,是不是可以极大地减少查询所需要的时间,同时效果上并无多少差异呢?极端情况下,如果需要的是一天的总访问量,比如有1个亿。查询的时候去数1亿行肯定快不了。但是如果统计好了一天的总访问量,查询的时候只需要取得一条记录就可以知道今天有1个亿的人访问了。

索引是一种非常常见的减少数据读取量的策略了。一般的按行存储的关系型数据库都会有一个主键。用这个主键可以非常快速的查找到对应的行。KV存储也是这样,按照Key可以快速地找到对应的Value。可以理解为一个Hashmap。但是一旦查询的时候不是用主键,而是另外一个字段。那么最糟糕的情况就是进行一次全表的扫描了,也就是把所有的数据都读取出来,然后看要的数据到底在哪里,这就不可能快了。减少数据读取量的最佳方案就是,建立一个类似字典一样的查找表,当我们找 username=wentao 的时候,可以列举出所有有 wentao 作为用户名的行的主键。然后拿这些主键去行存储(就是那个hashmap)里捞数据,就一捞一个准了。

谈到索引就不得不谈一下一个查询使用了两个字段,如何使用两个索引的问题。mysql的行为可以代表大部分主流数据库的处理方式: 
https://www.percona.com/blog/2012/12/14/the-optimization-that-often-is… 
https://www.percona.com/blog/2014/01/03/multiple-column-index-vs-multi… 
基本上来说,经验表明有多个单字段的索引,最后数据库会选一最优的来使用。其余字段的过滤仍然是通过数据读取到内存之后,用predicate去判断的。也就是无法减少数据的读取量。 
在这个方面基于inverted index的数据就非常有特点。一个是Elasticsearch为代表的lucene系的数据库。另外一个是新锐的druid数据库。 
https://www.found.no/foundation/elasticsearch-from-the-bottom-up/ 
http://druid.io/blog/2012/09/21/druid-bitmap-compression.html 
效果就是,这些数据库可以把单字段的filter结果缓存起来。多个字段的查询可以把之前缓存的结果直接拿过来做 AND 或者 OR 操作。

索引存在的必要是因为主存储没有提供直接的快速定位的能力。如果访问的就是数据库的主键,那么需要读取的数据也就非常少了。另外一个变种就是支持遍历的主键,比如hbase的rowkey。如果查询的是一个基于rowkey的范围,那么像hbase这样的数据库就可以支持只读取到这个范围内的数据,而不用读取不再这个范围内的额外数据,从而提高速度。这种加速的方式就是利用了主存储自身的物理分布的特性。另外一个更常见的场景就是 partition。比如 mysql 或者 postgresql 都支持分区表的概念。当我们建立了分区表之后,查找的条件如果可以过滤出分区,那么可以大幅减少需要读取的数据量。比 partition 更细粒度一些的是 clustered index。它其实不是一个索引(二级索引),它是改变了数据在主存储内的排列方式,让相同clustered key的数据彼此紧挨着放在一起,从而在查询的时候避免扫描到无关的数据。比 partition 更粗一些的是分库分表分文件。比如我们可以一天建立一张表,查询的时候先定位到表,再执行 SQL。比如 graphite 给每个 metric 创建一个文件存放采集来的 data point,查询的时候给定metric 就可以定位到一个文件,然后只读取这个文件的数据。

另外还有一点就是按行存储和按列存储的区别。按列存储的时候,每个列是一个独立的文件。查询用到了哪几个列就打开哪几个列的文件,没有用到的列的数据碰都不会碰到。反观按行存储,一张中的所有字段是彼此紧挨在磁盘上的。一个表如果有100个字段,哪怕只选取其中的一个字段,在扫描磁盘的时候其余99个字段的数据仍然会被扫描到的。

考虑一个具体的案例,时间序列数据。如何使用读取更少的数据的策略来提高检索的效率呢?首先,我们可以保证入库的时间粒度,维度粒度是正好是查询所需要的。如果查询需要的是5分钟数据,但是入库的是1分钟的,那么就可以先聚合成5分钟的再存入数据库。对于主存储的物理布局选择,如果查询总是针对一个时间范围的。那么把 timestamp 做为 hbase 的 rowkey,或者 mysql 的 clustered index 是合适。这样我们按时间过滤的时候,选择到的是一堆连续的数据,不用读取之后再过滤掉不符合条件的数据。但是如果在一个时间范围内有很多中数据,比如1万个IP,那么即便是查1个IP的数据也需要把1万个IP的数据都读取出来。所以可以把 IP 维度也编码到 rowkey 或者 clustered index 中。但是假如另外还有一个维度是 OS,那么查询的时候 IP 维度的 rowkey 是没有帮助的,仍然是要把所有的数据都查出来。这就是仅依靠主存储是无法满足各种查询条件下都能够读取更少的数据的原因。所以,二级索引是必要的。我们可以把时间序列中的所有维度都拿出来建立索引,然后查询的时候如果指定了维度,就可以用二级索引把真正需要读取的数据过滤出来。但是实践中,很多数据库并不因为使用了索引使得查询变快了,有的时候反而变得更慢了。对于 mysql 来说,存储时间序列的最佳方式是按时间做 partition,不对维度建立任何索引。查询的时候只过滤出对应的 partition,然后进行全 partition 扫描,这样会快过于使用二级索引定位到行之后再去读取主存储的查询方式。究其原因,就是数据本地化的问题了。

数据本地化

数据本地化的实质是软件工程师们要充分尊重和理解底层硬件的限制,并且用各种手段规避问题最大化利用手里的硬件资源。本地化有很多种形态

  • 最常见的最好理解的本地化问题是网络问题。我们都知道网络带宽不是无限的,比本地磁盘慢多了。如果可能尽量不要通过网络去访问数据。即便要访问,也应该一次抓取多一些数据,而不是一次搞一点,然后搞很多次。因为网络连接和来回的开销是非常高的。这就是 data locality 的问题。我们要把计算尽可能的靠近数据,减少网络上传输的数据量。
  • 这种带宽引起的本地化问题,还有很多。网络比硬盘慢,硬盘比内存慢,内存比L2缓存慢。做到极致的数据库可以让计算完全发生在 L2 缓存内,尽可能地避免频繁地在内存和L2之间倒腾数据。
  • 另外一种形态的问题化问题是磁盘的顺序读和随机读的问题。当数据彼此靠近地物理存放在磁盘上的时候,顺序读取一批是非常快的。如果需要随机读取多个不连续的硬盘位置,磁头就要来回移动从而使得读取速度快速下降。即便是 SSD 硬盘,顺序读也是要比随机读快的。

基于尽可能让数据读取本地化的原则,检索应该尽可能地使用顺序读而不是随机读。如果可以的话,把主存储的row key或者clustered index设计为和查询提交一样的。时间序列如果都是按时间查,那么按时间做的row key可以非常高效地以顺序读的方式把数据拉取出来。类似地,按列存储的数据如果要把一个列的数据都取出来加和的话,可以非常快地用顺序读的方式加载出来。

二级索引的访问方式典型的随机读。当查询条件经过了二级索引查找之后得到一堆的主存储的 key,那么就需要对每个 key 进行一次随机读。即便彼此仅靠的key可以用顺序读做一些优化,总体上来说仍然是随机读的模式。这也就是为什么时间序列数据在 mysql 里建立了索引反而比没有建索引还要慢的原因。

为了尽可能的利用顺序读,人们就开始想各种办法了。前面提到了 mysql 里的一行数据的多个列是彼此紧靠地物理存放的。那么如果我们把所需要的数据建成多个列,那么一次查询就可以批量获得更多的数据,减少随机读取的次数。也就是把之前的一些行变为列的方式来存放,减少行的数量。这种做法的经典案例就是时间序列数据,比如可以一分钟存一行数据,每一秒的值变成一个列。那么行的数量可以变成之前的1/60。

但是这种行变列的做法在按列存储的数据库里就不能直接照搬了,有些列式数据库有column family的概念,不同的设置在物理上存放可能是在一起的也可能是分开的。对于 Elasticsearch 来说,要想减少行的数量,让一行多pack一些数据进去,一种做法就是利用 nested document。内部 Elasticsearch 可以保证一个 document 下的所有的 nested document是物理上靠在一起放在同一个 lucene 的 segment 内。

网络的data locality就比较为人熟知了。map reduce的大数据计算模式就是利用map在数据节点的本地把数据先做一次计算,往往计算的结果可以比原数据小很多。然后再通过网络传输汇总后做 reduce 计算。这样就节省了大量网络传输数据的时间浪费和资源消耗。现在 Elasticsearch 就支持在每个 data node 上部署 spark。由 spark 在每个 data node 上做计算。而不用把数据都查询出来,用网络传输到 spark 集群里再去计算。这种数据库和计算集群的混合部署是高性能的关键。类似的还有 storm 和 kafka 之间的关系。

网络的data locality还有一个老大难问题就是分布式大数据下的多表join问题。如果只是查询一个分布式表,那么把计算用 map reduce 表达就没有多大问题了。但是如果需要同时查询两个表,就意味着两个表可能不是在物理上同样均匀分布的。一种最简单的策略就是找出两张表中最小的那张,然后把表的内容广播到每个节点上,再做join。复杂一些的是对两个单表做 map reduce,然后按照相同的 key 把部分计算的结果汇集在一起。第三种策略是保证数据分布的方式,让两张表查询的时候需要用到的数据总在一起。没有完美的方案,也不大可能有完美的方案。除非有一天网络带宽可以大到忽略不计的地步。

更多的机器

这个就没有什么好说的了。多一倍的机器就多一倍的 CPU,可以同时计算更多的数据。多一倍的机器就多一倍的磁头,可以同时扫描更多的字节数。很多大数据框架的故事就是讲如何如何通过 scale out 解决无限大的问题。但是值得注意的是,集群可以无限大,数据可以无限多,但是口袋里的银子不会无限多的。堆机器解决问题比升级大型机是要便宜,但是机器堆多了也是非常昂贵的。特别是 Hive 这些从一开始就是分布式多机的检索方案,刚开始的时候效率并不高。堆机器是一个乘数,当数据库本来单机性能不高的时候,乘数大并不能起到决定性的作用。

更高效的计算和计算实现

检索的过程不仅仅是磁盘扫描,它还包括一个可简单可复杂的变换过程。使用 hyperloglog,count min-sketch等有损算法可以极大地提高统计计算的性能。数据库的join也是一个经常有算法创新的地方。 
计算实现就是算法是用C++实现的还是用java,还是python实现的。用java是用大Integer实现的,还是小int实现的。不同的语言的实现方式会有一些固定的开销。不是说快就一定要C++,但是 python 写 for 循环是显然没有指望的。任何数据检索的环节只要包含 python/ruby 这些语言的逐条 for 循环就一定快不起来了。

结论

希望这四点可以被记住,成为一种指导性的优化数据检索效率的思维框架。无论你是设计一个mysql表结构,还是优化一个spark sql的应用。从这四个角度想想,都有哪些环节是在拖后腿的,手上的工具有什么样的参数可以调整,让随机读变成顺序读,表结构怎么样设计可以最小化数据读取的量。要做到这一点,你必须非常非常了解工具的底层实现。而不是盲目的相信,xx数据库是最好的数据库,所以它一定很快之类的。如果你不了解你手上的数据库或者计算引擎,当它快的时候你不知道为何快,当它慢的时候你就更加无从优化了。

转自:影响数据检索效率的几个因素

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
任 务 书 "题目:学生成绩管理系统 " "设计容与要求: " "1.课程设计任务容 " "设计一个简易的学生成绩管理系统,能够完成学生成绩的增加、删除、查找、 " "修改、统计等操作,数据信息保存文件保存。要求系统具有菜单和提示,界面 " "友好。 " "2.课程设计要求 " "实现学生成绩的管理和保存。 " "开发环境:vc++6.0 " "实现目标: " "熟悉的运用c语言程序编写代码。 " "能够理清整个程序的运行过程并绘画流程图 " "了解如何定义局部变量和整体变量; " "学会上机调试程序,发现问题,并解决 " "学习使用C++程序来了解程序原理。 " "学习用文档书写程序说明 " 摘 要 管理信息系统正在向着网络化、智能化和集成化等趋势发展。学生成绩管理系统是 为了更好的管理学生考试成绩而开发的数据管理软件。它对于一个学校是不可缺少的重 要部分,它的容对于学校的决策者和管理者来说都至关重要。学生成绩管理管理系统为 用户提供充足的信息和快捷的查询手段,实现学生基本信息、成绩的录入,删除,查询 ,维护以与成绩的统计分析等几方面的功能,是现实问题的迫切要求。 本系统开发的总体任务是实现学生成绩管理的系统化、规化、自动化。达到提高学 生成绩管理效率的目的。与传统管理方法相比有明显的优点:查找方便,可靠性高,性 好,成本低。彻底改变了以前繁杂的管理模式,实现全面的、相对集中的、职能化的信 息综合管理。 计算机被用到信息管理系统的环境正是适应了当今时代飞速发展的信息时代。人们 深刻的认识到了计算机功能的强大,对于复杂的信息管理,计算机充分发挥着它的优越 性。检索迅速、查找方便、可靠性高、存储量大、性好、寿命长、成本低,这些优点极 减轻了学院教学人员的工作量,缩小开支,提高了学生档案管理的效率和准确性,能够 合理的安排时间,学生能够尽快的知道自己的考试成绩。同时,学生管理系统的应用也 为今天的教育在未来市场的竞争力有所提高。 目 录 1.引 言5 2.课题分析7 3.具体设计过程8 3.1设计思路8 3.2程序设计流程图8 3.3.函数实现说明10 4.程序运行结果13 5.软件使用说明14 6.结论14 参 考 文 献16 附录:源代码16 1.引 言 数据结构在计算机科学界至今没有标准的定义。个人根据各自的理解的不同而有不同 的表述方法: Sartaj Sahni在他的《数据结构、算法与应用》一书中称:"数据结构是数据对象,以与存在于该 对象的实例和组成实 例的数据元素之间的各种联系。这些联系可以通过定义相关的函数来给出。"他将数据对 象(data object)定义为"一个数据对象是实例或值的集合"。Clifford A.Shaffer在《数据结构与算法分析》一书中的定义是:"数据结构是 ADT(抽象数据类型Abstract Data Type) 的物理实现。" Lobert L.Kruse在《数据结构与程序设计》一书中,将一个数据结构的设计过程分成抽象层、数据 结构层和实现层。其中,抽象层是指抽象数据类型层,它讨论数据的逻辑结构与其运算 ,数据结构层和实现层讨论一个数据结构的表示和在计算机的存储细节以与运算的实现 。数据结构具体指同一类数据元素中,各元素之间的相互关系,包括三个组成成分,数 据的逻辑结构,数据的存储结构和数据运算结构。 1.1. 重要意义 一般认为,一个数据结构是由数据元素依据某种逻辑联系组织起来的。对数据元素间 逻辑关系的描述称为数据的逻辑结构;数据必须在计算机存储,数据的存储结构是数据 结构的实现形式,是其在计算机的表示;此外讨论一个数据结构必须同时讨论在该类数 据上执行的运算才有意义。 在许多类型的程序的设计中,数据结构的选择是一个基本的设计考虑因素。许多大 型系统的构造经验表明,系统实现的困难程度和系统构造的质量都严重的依赖于是否选 择了最优的数据结构。许多时候,确定了数据结构后,算法就容易得到了。有些时候事 情也会反过来,我们根据特定算法来选择数据结构与之适应。不论哪种情况,选择合适 的数据结构都是非常重要的。 选择了数据结构,算法也随之确定,是数据而不是算法是系统构造的关键因素。这种 洞见导致了许多种软件设计方法和程序设计语言的出现,面向对象的程序设计语言就是 其中之一。 1.2. 研究容 在计算机科学中,数据结构是一门研究非数值计算的程序设计问题中计算机的操作对象 (数据元素)以与它们之间的关系和运算等的学科,而且确保经过这些运算后所得到的 新结构仍然是原来的结构类型。 "数据结构"作为一门独立的课程在国外是从1968年才开始设立的。 1968年美国唐·欧·克努特教授开创了数据结构的最初体系,他所著的《计算机程序设计技 巧》第一卷《基本算法》是第一本较系统地阐述数据的逻辑结构和存储结构与其
### 回答1: 假设有以下三个表: 1. `users` 表,包含用户信息: ``` CREATE TABLE users ( id INT PRIMARY KEY, name VARCHAR(50), email VARCHAR(50), phone VARCHAR(20) ); ``` 可以创建以下三个索引: - `CREATE INDEX idx_users_name ON users(name);`:加速根据用户名查询用户信息的操作; - `CREATE INDEX idx_users_email ON users(email);`:加速根据电子邮件查询用户信息的操作; - `CREATE INDEX idx_users_phone ON users(phone);`:加速根据电话号码查询用户信息的操作。 2. `orders` 表,包含订单信息: ``` CREATE TABLE orders ( id INT PRIMARY KEY, user_id INT, amount DECIMAL(10,2), date_created DATE ); ``` 可以创建以下三个索引: - `CREATE INDEX idx_orders_user_id ON orders(user_id);`:加速根据用户 ID 查询订单信息的操作; - `CREATE INDEX idx_orders_amount ON orders(amount);`:加速根据订单金额查询订单信息的操作; - `CREATE INDEX idx_orders_date_created ON orders(date_created);`:加速根据订单创建日期查询订单信息的操作。 3. `order_items` 表,包含订单项信息: ``` CREATE TABLE order_items ( id INT PRIMARY KEY, order_id INT, product_id INT, quantity INT, price DECIMAL(10,2) ); ``` 可以创建以下三个索引: - `CREATE INDEX idx_order_items_order_id ON order_items(order_id);`:加速根据订单 ID 查询订单项信息的操作; - `CREATE INDEX idx_order_items_product_id ON order_items(product_id);`:加速根据产品 ID 查询订单项信息的操作; - `CREATE INDEX idx_order_items_price ON order_items(price);`:加速根据订单项价格查询订单项信息的操作。 ### 回答2: 对于创建这几个表的3个索引的选择,需要考虑到表的结构和查询需求。以下是一种可能的设置方案: 第一个索引可以是一个主键索引,用于唯一标识每个表中的行。通过使用主键索引,可以快速地定位到具体的行,提高查询效率。 第二个索引可以是一个外键索引,用于建立表与表之间的关系。通过使用外键索引,可以在表之间建立关联,实现数据一致性和完整性约束。 第三个索引可以是一个复合索引,用于优化特定的查询。通过将多个列组合在一起创建复合索引,可以提高查询的性能。 需要注意的是,在创建索引之前,我们需要仔细评估表的大小、查询频率以及数据更新频率等因素。创建过多的索引可能会导致额外的存储开销和性能下降。 此外,索引还需要定期维护,包括重建、重新统计和删除不再使用的索引等操作,以保持索引的有效性和性能优化。 ### 回答3: 为了更好地提高数据库查询的效率,我们可以为下面几个表创建三个索引: 1.用户表(User Table):创建三个索引 a) 用户名索引:为了方便按用户名进行快速查找和排序,我们可以创建一个用户名的索引。这将在用户表中的用户名列上创建一个唯一的索引,以加快对用户名的查询速度。 b) 地址索引:如果我们需要根据用户的地址进行查询和筛选,我们可以在用户表的地址列上创建一个索引。这将加快对地址的查询速度,提高查询效率。 c) 注册时间索引:如果我们经常需要按照用户的注册时间进行排序或筛选,我们可以在用户表的注册时间列上创建一个索引。这将加快对注册时间的查询和排序操作,提高数据库的性能。 2.商品表(Product Table):创建三个索引 a) 商品名称索引:为了方便按商品名称进行快速查找和排序,我们可以创建一个商品名称的索引。这将在商品表中的商品名称列上创建一个唯一的索引,以加快对商品名称的查询速度。 b) 价格索引:如果我们需要根据商品的价格进行查询和筛选,我们可以在商品表的价格列上创建一个索引。这将加快对价格的查询速度,提高查询效率。 c) 库存数量索引:如果我们经常需要按照商品的库存数量进行排序或筛选,我们可以在商品表的库存数量列上创建一个索引。这将加快对库存数量的查询和排序操作,提高数据库的性能。 3.订单表(Order Table):创建三个索引 a) 订单编号索引:为了方便按订单编号进行快速查找和排序,我们可以在订单表中的订单编号列上创建一个唯一的索引。这将加快对订单编号的查询速度,提高查询效率。 b) 用户ID索引:如果我们需要根据用户ID进行查询和筛选订单,我们可以在订单表的用户ID列上创建一个索引。这将加快对用户ID的查询速度,提高查询效率。 c) 下单时间索引:如果我们经常需要按照订单的下单时间进行排序或筛选,我们可以在订单表的下单时间列上创建一个索引。这将加快对下单时间的查询和排序操作,提高数据库的性能。 通过创建以上这些索引,我们可以提高数据库查询效率,加快数据检索的速度,从而提高整体系统的性能和用户体验。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值