大数据测试

什么是大数据测试

  大数据测试通常是指对采用大数据技术的系统或应用的测试。大数据测试可以分为两个维度,一个维度是数据测试,另一个维度是大数据系统测试和大数据应用产品测试。

 数据测试:

      主要关注数据的完整性、准确性和一致性等。

 大数据系统测试和大数据应用产品测试:

     这里的大数据系统一般是指使用hadoop生态组件搭建的或者自主研发的大数据系统。自主研发的大数据系统主要包括数据的存储、计算和分析等应用。

    大数据系统测试主要包括功能、基准、安全和可靠性测试。功能测试主要是对数据的采集和传输、数据的存储和管理、数据计算、数据的查询和分析,以及数据的可视化等功能的测试。基准测试主要用于对比和评估大数据框架组件的性能指标等。

     大数据应用产品,典型的有BI报表、数据分析平台等。构建大数据应用产品通常依赖数据仓库和ETL过程。

大数据测试类型

     按照测试类型划分:功能测试、性能测试、其他非功能性测试(兼容、安全等)

     数据的生命周期划分:数据采集测试、数据处理测试、数据计算测试和应用展示阶段测试

     功能测试

       功能测试主要覆盖数据质量、数据维度、数据处理和数据展示等多个方面。功能测试常用的测试方法:数据的完整性、一致性、准确性、及时性测试、数据约束检查、数据存储检查、sql文件检查、数据处理逻辑验证、shell脚本测试和调度任务测试等。

        在数据质量方面,主要包括4种测试方法: 数据的完整性、一致性、准确性、及时性测试。

       数据的完整性测试

  数据的一致性测试

  数据的准确性测试

  数据的及时性测试

            数据的及时性是指数据从产生到可以查看的时间间隔(也称数据的延长时长)在可接受范围。及时性对大数据离线项目的影响不大,但对大数据实施项目有很大影响

        数据约束检查

          数据约束检查主要检查:数据类型、数据长度、索引和主键是否符合要求。数据类型比较丰富,测试过程中需要覆盖所有的数据类型,对于 不支持的数据类型也要有异常处理。检查目标表中的约束关系是否满足设计期望。

        数据约束检查

         数据存储检查主要检查数据的存储是否合理、正确

         1)评估是否需要以压缩文件形式存储   2)hive表类型选择是否合理(内部表、外部表、分区表和分桶表)3)代码中读取和写入的文件及目录是否正确

        SQL文件检查

         1)开发规范检查

           eg:建议先进行过滤操作,去掉无用数据后在进行join操作;建议将小表放在join的左边,join左边的边会首先加载进内存,这样可以有效降低内存溢出错误发生的概率;尽量少使用distinct操作,因为distinct操作比较耗资源等等

          2)sql语法检查

          主要检查sql是否存在语法问题,即检查sql连接方式、函数、聚合和关键字的使用是否正确

        数据处理逻辑验证

          1)验证过程是否符合业务逻辑,运算符和函数的使用是否正确

          2)对异常值,“脏”数据、极值、特殊数据(0值、负值)的处理是否符合预期

          3)字段类型愚书记数据是否一致,主键构成是否合理

          4)是否按照去重规则进行去重处理

         调度任务测试

          1)任务本身是否支持重跑,任务失败是否有日志,重跑数据是否正常有重复数据,任务失败是否可以监控告警等

          2)依赖的父任务是否更配置合理

          3)任务依赖层次是否合理,任务执行先后、并行是否合理,是否会冲突。

          4)任务是否在规定的时间内完成

  • 25
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
大数据测试是指对大数据系统进行测试和验证,以确保其性能、可靠性和稳定性。在大数据测试中,测试案例是用来验证大数据系统的功能和性能的具体测试场景和步骤。 以下是一个大数据测试案例的示例: 测试案例:验证大数据系统的数据完整性 步骤: 1. 准备测试数据:创建一个包含多个数据源的大数据集,包括结构化数据、半结构化数据和非结构化数据。 2. 导入数据:将测试数据导入到大数据系统中,确保数据导入的过程正确无误。 3. 数据转换:对导入的数据进行转换和清洗,确保数据准确性和一致性。 4. 数据分析:使用大数据系统的分析功能对数据进行分析和挖掘,验证系统的数据处理能力。 5. 数据查询:使用查询语言或工具对数据进行查询,验证系统的查询性能和准确性。 6. 数据可视化:将分析结果以可视化的方式展示,验证系统的可视化功能和效果。 7. 数据导出:将分析结果导出到外部系统或文件,验证系统的数据导出功能和数据格式的正确性。 8. 数据备份和恢复:测试系统的数据备份和恢复功能,确保数据的安全性和可靠性。 9. 性能测试:对系统进行负载测试和压力测试,验证系统在大数据量和高并发情况下的性能表现。 10. 错误处理:测试系统在面对异常情况和错误数据时的处理能力,确保系统的容错性和稳定性。 通过执行以上测试案例,可以验证大数据系统在数据完整性方面的功能和性能。同时,还可以根据具体需求和场景设计其他测试案例,以全面评估大数据系统的性能和可靠性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值