大数据处理

本文详细介绍了大数据处理的过程,包括数据采集、数据清洗、数据变换、数据集成和数据归约。在数据采集阶段,涉及系统日志、网络数据和数据库的收集。数据清洗关注完整性、一致性和准确性等质量标准。数据变换则涵盖了残缺数据、噪声数据和冗余数据的处理。数据集成处理模式匹配和数据冲突,而数据归约则通过维归约和数值规约降低数据复杂性。
摘要由CSDN通过智能技术生成

1.1数据采集

 1数据采集方法

1>系统日志采集:使用日志收集系统,收集业务日志数据提供离线和在线的分析系统使用
2>网络数据采集:通过网络爬虫或网站公开API等方式从网站上获取数据信息,可以将非结构化数据以结构化的方式存储
3>数据库采集:在采集端部署大量数据库,并对如何在这些数据库之间进行负载均衡和分布进行深入的思考和设计

2数据质量的评估标准
1>完整性
2>一致性
3>准确性
4>及时性

3数据质量的影响因素

数据质量反映的是数据的“适用性(fitness for use)”,即数据满足使用需要的合适程度。数据质量通过完整性、一致性、准确性、及时性、合法性等多类维度对数据进行度量。数据质量管理的目的是为企业提供洁净、结构清晰的数据,是企业开发业务系统、提供数据服务、发挥数据价值的必要前提,是企业数据资产管理的前提。

数据质量问题按照问题的来源和具体原因,可以分为信息、技术、流程、管理四个问题域。

信息类问题是由于对数据本身的描述理解及其度量标准的偏差而造成的数据质量问题。产生这部分数据质量问题的原因主要有:元数据描述及理解错误、数据度量的各种性质得不到保证和变化频度不恰当等。

技术问题域

技术类问题是指由于具体数据处理的各技术环节的异常造成的数据质量问题,它产生的直接原因是技术实现上的某种缺陷。数据质量问题的产生环节主要包括数据创建、数据获取、数据传递、数据装载、数据使用、数据维护等方面的内容:

1、数据创建质量问题主要包括业务系统数据入库延迟、创建数据默认值使用不当和数据录入的校验规则不当,导致指标统计结果不一致、数据无效、记录重复等。
2

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值