大数据测试
大数据测试
wqchibingshaonian
这个作者很懒,什么都没留下…
展开
-
工作注意事项
技术选型 系统数据流程设计 框架版本选型 服务器选型 集群资源规划设计(测试服务器规划和开发环境和正式运行环境规划) 配置:熟悉配置的文件、配置文件的修改、配置文件的优化 配置文件进行翻译-找到对应的值和含义,配置文件的优化选项 核心配置文件的备份 配置文件时,先查看是否存在这个文件后,再进行编辑,记得添加注释,注释很重要,要养成良 好的习惯 配置模板template文件需要进行备份 安装之前先确定安装软件的版本号--一定要确定 测试安装(mysql\red...原创 2021-03-19 09:58:51 · 137 阅读 · 0 评论 -
work
1.各种配置文件注释的整理、各组件的安装包、各组件之间的依赖2.各种组件命令的整理3.安装文档的整理4.组件版本的适配的整理5.各版本之间的区别、配置文件的区别、性能的区别和对于的扩展6.各组件的对于的监控、监控指标、对于监控的数据源7.基准测试,性能测试,性能调优8.问题排查。日志位置、数据存储位置9.对于的端口整理、Web操作界面熟悉10.对于脚本和定时任务的编写,集群启动脚本和集群分发脚本11.数据质量安全管理12.数据监控报警13.测试工具SQL的熟悉原创 2021-03-19 09:52:11 · 147 阅读 · 0 评论 -
hive的函数类型
UDF:(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等UDAF:(User- Defined Aggregation Funcation),用户自定义聚合函数,类似在groupby之后使用的sum,avg等UDTF(User-Defined Table-Generating Functions):,用户自定义生成函数,有点像stream里面的flatMap...原创 2021-03-18 11:44:51 · 507 阅读 · 0 评论 -
变化数据捕获方法
有时间戳、快照、触发器和日志四种。时间戳方法需要源系统有相应的数据列表示最后的数据变化。(弱点:要求业务系统的表必须一个可以标识新旧数据的字段) 快照方法可以使用数据库系统自带的机制实现,如Oracle的物化视图技术,也可以自己实现相关逻辑,但会比较复杂。 触发器是关系数据库系统具有的特性,源表上建立的触发器会在对该表执行insert、update、delete等语句时被触发,触发器中的逻辑用于捕获数据的变化。(优点:抽取性能高。缺点:需要业务表建立触发器,对业务系统有一定的影响。) 日志可以使用原创 2021-03-17 17:13:41 · 550 阅读 · 0 评论 -
传统数仓四层模型
传统数据仓库一般分为四层模型 ods 原始数据层 存放原始数据,保持原貌不做处理 dwd 明细数据层 对ods层数据清洗(去除空值,脏数据,超过极限范围的数据) dws 服务数据层 轻度聚合 ads 应用数据层 具体需求 ...原创 2021-03-17 14:43:39 · 6737 阅读 · 0 评论 -
Griffin数据质量监控
数据质量统计的维度准确度度量Accuracy Measure 性能分析度量Profiling Measure Rule规则编写:空值个数查询 去重个数统计 最大值、最小值 排序 范围查询原创 2021-03-17 14:21:50 · 240 阅读 · 0 评论 -
Flink SQL 16个query测试集合
1.空跑2.转换conversion3.过滤查询4.双流join5. having average6.最多HoT7.10个成功售出的平均价格8.竞价最高的竞标以及价格9.这段时间创建拍卖的用户10.计算每个拍品的获胜标记录Winning11.将所有事件记录写到文件系统。展示乐将数据流按窗口写入分区文件12.每个用户在每个活跃周期中进行了多少次出价?展示了session window13.每个用户在固定的处理事件窗口中进行了多少出价?展示了processing原创 2021-03-16 10:08:50 · 251 阅读 · 0 评论 -
基准测试的特点
基准测试的特点1.可复现性测试结果可以重现2.能调整作业的负载(数据量、数据分布)数据库领域非常著名的TPC-H、TPC-DS涵盖了大量的query集合,来捕获查询引擎之间细微的差别。而且这些query集合都立于真实业务场景之上(商品零售行业),数据规模大,因此也很受一些大数据系统的青睐。3.能调整作业的负载。即数据量、数据分布在大数据领域,不同的数据规模对于引擎来说可能会是完全不同的事情。例如 Yahoo Benchmark 中使用的 campaign id 只有 10.原创 2021-03-16 09:40:33 · 261 阅读 · 0 评论 -
Hbase基准测试
Hbase基准测试1.Hbase读写测试1.1Hbase顺序写测试原理Hbase自带org.apache.hadoop.hbase.PerformanceEvaluation--nomapred工具测试环境3台服务器-hadoop集群模式:hadoop版本2.7.2 hbase1.3.1hadoop命令配置环境变量hbase命令配置环境变量配置1台 :内存16G、CPU4核、宽带1Mbps、SSD500G配置2台 :内存4G、CPU2核、宽带1Mbps、SSD500G原创 2021-03-11 17:48:45 · 443 阅读 · 0 评论 -
Hadoop基准测试
Hadoop基准测试1.HDFS读写测试1.1.测试HDFS写性能测试原理hadoop自带TestDFSIO读写性能测试工具测试环境3台服务器-hadoop集群模式:hadoop版本2.7.2 hadoop命令配置环境变量配置1台 :内存16G、CPU4核、宽带1Mbps、SSD500G配置2台 :内存4G、CPU2核、宽带1Mbps、SSD500G测试方案10个128MB的数据块测试步骤 清空数据,执行如下2个命令 hadoop jar had.原创 2021-03-11 14:35:53 · 375 阅读 · 0 评论 -
spark知识点整理
1.查看端口spark端口号Spark-shell运行任务情况端口:4044Spark Master内部通信服务端口号:7077Spark历史服务器端口号:18080Hadoop Yarn任务运行情况查看端口号:80882.核心组件1.Driver Executor2.Master&Worker进程 Master主要负责资源的调度和分配 3.ApplicationMaster ResourceManager和Driver之间解耦合靠的纠删ApplicationMaste...原创 2021-03-08 11:01:07 · 150 阅读 · 2 评论 -
大数据框架版本
Hive 3.12Hadoop 3.1.3hbase 2.0.5spark 3.0.0zookeeper 3.5.7flume 1.9.0ranger 2.0.0sqoop 1.4.7原创 2021-03-07 15:39:02 · 167 阅读 · 0 评论 -
Hbase总结知识点
Hbase1.设计RowKey尽量用时间戳2.每个列都有列族(CF)3.Cell-单元格,都是由字节码存储的4.Time Stamp是非常重要的5.查看命名空间list_namespace6.创建命名空间create_namespace7.删除命名空间delete_namespace8.老版本以0.8和0.9划分的9.老版本存在-root表10.读流程和hmaster没有关系11.读没有写的速度快12.写数据不会触发元数据更新,写数据和Hmatser也没有关系原创 2021-03-07 14:14:15 · 101 阅读 · 1 评论 -
大数据测试内容
数据涉及数据创建、存储、检索、分析,而且它在数据、多样性和速度方法都很出色大数据应用程序更多的是验证其数据处理,而不是测试产品的个别功能。当涉及到大数据测试时,性能和功能测试是关键。数据质量也是大数据测试的一个重要因素。它涉及检查各种字段,如准确性、重复性,一致性数据处理可以是三种类型:批量实时交互测试方面:验证其数据处理:创建、存储、检索和分析数据处理三种类型:批量\实时、交互 性能:Hdfs读写 mapreduce计算性能 测试作业完成时间、内存使用率、数据吞吐率 数...原创 2021-03-07 13:33:09 · 802 阅读 · 1 评论 -
Hadoop生成调优测试点
Hadoop生成调优点1.HDFS--核心参数NameNode内存生成配置NameNode心跳并发配置开启回收站配置2.HDFS集群压测测试HDFS写性能 向 HDFS 集群写 10 个 128M 的文件测试HDFS读性能 3.HDFS多目录NameNode多目录配置DataNode多目录配置集群数据均衡之磁盘间数据均衡4.HDFS击取扩容及缩容1.添加白名单2.服务新服务器3.服务器间数据均衡4.黑名单退役服务器5.HDFS-存储优化1.纠删码策略 ...原创 2021-03-07 13:23:50 · 85 阅读 · 0 评论