1.什么是大数据?
大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
2.大数据来源
大数据的来源非常广泛,如信息管理系统、网络信息系统、、物联网系统、科学实验系统等,其数据类型包括结构化数据、半结构化数据和非结构化数据。
(1)信息管理系统:企业内部使用的信息系统,包括办公自动化等。信息管理系统主要通过用户数据和系统二次加工的方式产生数据,其产生的大数据大多数为结构化数据,通常存储在数据库中。
(2)网络信息系统:基于网络运行的信息系统即网络信息系统是大数据产生的重要方式,如电子商务系统、社交网络、社会媒体、搜索引擎等都是常见的网络信息系统。网络信息系统产生的大数据多为半结构化或非结构化的数据。
(3)物联网系统:物联网是新- -代信息技术,其核心和基础仍然是互联网,是在互联网基础上的延伸和扩展的网络,其用户端延伸和扩展到了任何物品与物品之间,进行信息交换和通信,而其具体实现是通过传感技术获取外界的物理、化学和生物等数据信息。
(4)科学实验系统:主要用于科学技术研究,可以由真实的实验产生数据,也可以通过模拟方式获取仿真数据。
3.什么是脏数据?
脏数据(Dirty Read)是指源系bai统中的数据不在给定的范du围内或对于实际业务毫无意义,zhi或是数据格式非法,dao以及在源系统中存在不规范的编码和含糊的业务逻辑。
通俗的讲,当一个事务正在访问数据,并且对数据进行了修改,而这种修改还没有提交到数据库中,这时,另外一个事务也访问这个数据,然后使用了这个数据。
因为这个数据是还没有提交的数据,那么另外一个事务读到的这个数据是脏数据,依据脏数据所做的操作可能是不正确的。
- 残缺数据
- 噪声数据
- 冗余数据
数据可视化四个步骤:
- 识别目标需求
信息需求是确保数据分析过程有效性的主要条件,并且可以为数据收集和分析提供明确的目标。识别信息需求是管理者的责任。管理人员应根据决策和过程控制的需求提出信息需求。就过程控制而言,管理者应识别用于支持过程输入,过程输出,资源分配的合理性,过程活动的优化以及过程异常的发现所需的信息。
- 采集数据
收集数据的目的是确保数据分析过程有效的基础。组织需要收集数据的内容,渠道和方法的计划。
- 数据分析
分析数据是将通过处理,分类和分析收集到的数据转化为有价值的信息,通常使用排列图、因果图、分层法、调查表、散步图、直方图、控制图、关联图、系统图、矩阵图、KJ法、计划评审技术、PDPC法、矩阵数据图等。
- 过程改进
数据分析是质量管理体系的基础。组织的管理者应在适当时评估以下问题的有效性:首先,为决策提供的信息是否充分和可信,以及由于信息不足,不准确和滞后而导致决策错误的问题;第二个问题是信息在持续改进质量管理体系、过程和产品方面起到的作用是否达到预期,以及在产品过程中使用数据分析是否有效?第三是收集目的是否明确,收集的数据是否真实,充分,信息通道是否畅通。第四,数据分析方法是否合理,风险是否控制在可接受的范围内;实用数据分析所需的资源是否得到保证。