数据清洗的概述

一:数据清洗的背景

近年来,大数据技术掀起了计算机领域的-个新浪潮,无论是数据挖掘、数据分析、数据可视化.还是机器学习、人工智能,它们都绕不开“数据"这个主题。从统计学家到软件开发人员,再到图形设计师,越来越多的人对数据科学产生了兴趣。廉价的硬件、可靠的数据处理工具和数据可视化工具以及海量的数据这些资源使我们能够轻松地、精确地发现趋势、预测未来。

由于海量数据的来源是广泛的,数据类型也是多而繁杂的,因此数据中会夹杂着不完整、重复以及错误的数据,如果直接使用这些原始数据,会严重影响数据决策的准确性和效率。因此,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。当今时代,企业信息化的要求越来越迫切。对于企业的决策者来说,正所谓“垃圾进垃圾出(garbagein.garbageout)”如果作为决策支持的数据仓库存放的数据质量达不到要求,将直接导致数据分析和数据挖掘不能产生理想的结果,甚至还会产生错误的分析结果,从而误导决策。因此,我们需要对数据仓库中的数据进行相关清洗操作,得出可靠、可准确反映企业实际情况的数据,用以支持企业战略决策。由此可见,数据质量在企业战略决策中占据着重要的地位。

总而言之,原始数据是不能满足我们的需要,不能完成我们的目的,不能更哈德服务我们,所以我们需要数据清洗.

1.数据质量的概述

 1)所谓数据质量,是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景的具体需求的程度.

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
1 数据分析简述 2 数据分析的重点 ——数据"供应链" 数据分析 描述性 探索性 验证性 初级数据分析 对比分析法 平均分析法 交叉分析法 高级数据分析 相关分析 因子分析 回归分析 1. 将数据与实际业务进行结合, 深入了解业务背景,明确需求, 2. 将数据信息化、可视化 3. 转化为生产力,帮助企业获利 数据分析是"神马" 3 数据分析六步曲 先决条件 提供方向 明确目的 数据库 其他媒介 数据收集 清洗、转 化、提取、 计算 数据处理 统计分析 数据挖掘 数据分析 图表 表 格 文字 数据展现 框架清晰 明确结论 提出建议 报告撰写 一般数据分析用Excel可以完成,若高级数据分析,则需要使 用数据分析工具,如SPSS Statistics等。 1.数据分析方法论 1.1数据分析方法论与数据分析法的区别 数据分析方法论是对数据分析的宏观指导,就像是一个数 据分析的前期规划,指导着后期数据分析工作的开展。 如数据采用何种方法分析?有几个方面需要分析?各个方面有何指 标?· · · · · · 数据分析法是指具体的分析方法,常见的有对比分析、交叉 分析、相关分析、回归分析等。数据分析方法主要是从微观 角度指导数据分析。 1.数据分析方法论 1.2 PEST分析法(主要用于行业分析) PEST是指对政治(Political)、经济(Economic)、技术(Technological)和 社会(Social)这四类影响企业的主要外部环境因素进行分析。一般用于对 宏观环境的分析,由于行业和企业自身的特点和经营方式,分析的具体内 容可能会稍有差异。 经济环境 行业、企业 政治环境 社会环境 技术环境 包括一个国家的社会制度,执政党的性质、方针政策等。 宏观指国家国民收入、国民生产总值及变化情况。微观指行业所在 地区消费者的收入水平、消费偏好等。 包括一个国家的或地区的居民受教育程度和文化水平、信仰风俗、 价值观念等。 技术环境除了要考察与企业所处领域直接相关的技术手段的发展变 化外,还应了解:国家对科技开发的投资和支持重点、技术转移和 技术商品化速度、专利及其保护情况、该领域发展动态和研究费用 总额等。 1.数据分析方法论 例 用PEST分析法对互联网行业进行分析 互联网 行业分析 政治 经济 社会 技术 国家出台哪些政策?有何影响?制约还是促进? 相关法律有哪些?有何影响? GDP及增长率、进出口总额及增长率 消费价格指数、失业率、居民可支配收入 中国网民与中国公民在人口规模、性别比例、人 口分布、购买习惯、教育情况、宗教信仰等方面, 网民与全国是否有区别? 技术的发明、技术传播、更新、商品化速度、技 术发展趋势 国家重点支持项目、国家投入费用 1.数据分析方法论 1.3 5W2H分析法(用户行为分析、业务专题分析) 5W2H分析法是从回答中发现解决问题的线索的方法,即何因 (why)、何事(what)、何人(who)、何时(when)、何 地(where)、如何做(how)、何价(how much),这就构 成了5W2H的总框架。该方法简单方便,容易理解,广泛应用 于企业营销管理活动等方面。 5W2H 分析法 Why 何因 What 何事 When 何时 Who 何人 Where 何地 How 如何做 How much 何价 1.数据分析方法论 例 5W2H分析法在用户购买行为分析上的应用 用户购买 行为分析 Why What Who When Why Where How How much 用户购买产品目的是什么?产品哪里吸引顾客? 公司提供什么产品及服务?与用户需求一致? 谁是我们的用户?用户有何特点? 何时购买?多久再次购买? 用户在哪购买?各个地区用户构成怎样? 用户购买支付方式怎样? 用户购买花费时间、交通等成本各是多少? 通过上面可以看出5W2H分析法让分析问题变得简单有条理,更有 逻辑性与全面性。 1.4 逻辑树分析法(业务问题专题分析) 1.数据分析方法论 逻辑树分析法是将一个已知问题当成树干,然后考虑这个问题和 哪些问题有关。每想到一点,就给这个问题所在的树干加一个树 枝,并标明树枝代表什么问题。逻辑树方法又称问题树、演绎树 或分解树。 问题陈述 问题一 问题二 问题三 问题N · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 逻辑树的适用要遵循以下原则: 1.数据分析方法论 要素化:把相同问题归纳总结成要素 框架化:将各个要素组成框架,遵守 不重不漏的原则 关联化:框架内的各元素保持必要的相互关系,简单不孤立 例 逻辑树分析法在利润分析中的应用 利润增长 缓慢 收入

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值