大数据在人力资源管理当中的应用

大数据时代

数字与人类文明

​ 数字是人类发明的最重要的概念之一,与整个人类文明进程相伴相生

​ 早在8000年前美苏尔地区商人利用泥球计算商品销量

在这里插入图片描述

​ 商鞅也说过经典的“强国知十三数“:竟内仓、口之数,壮男、壮女之数,老、弱之数,官、士之数,以言说取食者之数,利民之数,马、牛、刍藁之数。

​ 我国古代的孙子兵法也有五条基本原则:“度(国之大小)、量(粮草资源多少)、数(军队数量多少)、称(各方实力对比)、胜“

​ 从这些概念中都可以明白,数字是从古至今中人类一直在使用的东西,并且伴随着人类的发展也在不断的完善与进步。

​ 对数字的利用在推动人类文明进步的时候都发挥了重大作用例如:美国制宪会议。

在这里插入图片描述

​ 在制宪会议中,由于在制定参众两院分权机制的过程中,众议院的席位要按照人口多少来进行分配,拥有众多黑奴的南方各州于是就黑奴是否应该纳入人口总数与北方各州展开了激烈辩论。最终,大会决定,每隔黑奴按照3/5个白人(自由人)的标准纳入南方人口的总数。这个3/5页写进了宪法,成为了黑奴不平等的历史见证。但就当是而言,这个数字的制定,为推动宪法制定做出了重大贡献。

​ 并且数字作为基本工具,为整个科学大厦奠定了基石

  • 在量子力学领域:从数字的结论出发解释了物理的规律
  • 在量化投资领域:用数字结论进行指导投资

普查与统计学

​ 人口普查是人类第一次有意识的、大规模的利用数据,统计学也就在人口普查中诞生了。

在这里插入图片描述

​ 人类最早的统计活动,就是起源于和人口情况相关的社会调查。而统计(Statistics)一词也最早见于17世纪的德国,原意为国势学。

​ 最初,人口普查时为了征税、评估国家的军事实力、实施社会控制。而后,纳入普查范围内

的项目数越来越多,普查本身的细分程度也不断加深,统计的难度和工作量不断增加。当时十八世纪的美国,每隔十年就需要进行一次普查,统计数据就要耗费8年。由此催生了自动制表技术抽样统计推断的一系列方法。

  • 自动制表技术:为后续的计算机科学奠定了基础。
  • 抽样和推断:奠定了数理统计学的科学基础

​ 统计学成为近代数据科学最前沿的领域的发展与四个特质是息息相关的:

  1. 始终站在数据应用的第一线
  2. 向各个垂直细分领域渗透
  3. 持续不断的价值产出
  4. 推动理论创新与技术创新
    在这里插入图片描述
统计学所推动的数据新知

​ 所谓数据,是指指用于记录某项客观事物运行状态或事物属性的有序数字集合,而数据分析则是挖掘数据所蕴藏的规律,而数字规律,即事物规律,然后用这些规律进一步的去指导生产生活,来不断的完善人们的生活。

统计学之殇:全美流感预测

​ 2009年出现了一种新型流感病毒,这种甲型H1N1流感结合了导致禽流感和猪流感的病毒特点,在短短几周之内迅速传播开来。全球的卫生机构都担心一场致命的流感病毒即将来袭,更有评论家警告说,可能会爆发大规模流感。

在这里插入图片描述

​ 然而更加糟糕的是,针对这个问题我们还没研发出对抗这种新型流感病毒的疫苗,因此能做的事情只是根据病毒出现地方进行应急防范,以延缓传播速度。这就要求必须先知道这种流感病毒出现在了哪里。

​ 然而,患者只会因为患病后,甚至患病多日后才回去意愿,因为医疗机构的统计汇总效率比较底下,导致上报疾控中心需要时间,并且统计汇总也需要时间,造成的后果是公共卫生机构通常在两周后才能统计出全国各地患病信息这也导致了公共卫生机构在疫情爆发的关键时期反而无所适从。

​ 但是,在H1N1爆发的几周前,谷歌公司的工程师们在《自然》杂志上发表一篇论文,论述了如何利用人们在网上的搜索记录来完成全美冬季流感的传播预测,甚至可以精确到特定的地区和州,这是因为他们利用了5000万条人们的检索词频和美国疾控中心在2003年至2008年间流感传播时期的数据进行比较,并通过这些搜索记录来预测这些是否患上了流感,最终这项研究最终大获成功,他们的算法最终发现了45条检索词条的组合,最终预测结果和官方数据相关性高达97%,下面是预测的结果比较。

在这里插入图片描述

通过对2009年甲型H1N1流感的预测可以看出,两种统计方法表现出了两种截然不同的效率:

  • 官方机构的统计因为官方数据习惯性的滞后导致疾病爆发两周后才能统计出结果
  • 而谷歌的预测显然更有效及时,他 们能够提前一天预测全美各个地区流感爆发的趋势

​ 谷歌的预测可以为公共卫生机构的预防流感措施部署提供极有价值的信息,更关键的是,这是一种从未使用过的预测工具。该事件所代表的价值观和方法论,都深刻的影响了我们看待和使用数据的方法。

患病人次预测案例

我们希望通过这次案例获取患病人次的一般规律,进行患病人次的预测。

首先进行背景介绍:

  • 如今,定量化的了解区域内居民医疗卫生服务需求,对于合理制定区域卫生规划、优化医疗卫生资源配置、提高医疗卫生服务质量和效率,切实有效缓解群众看病难、看病贵的状况,有着显著的现实意义。

然后我们进行目标分析,我们希望可以达成三点:

  • 高精度:首先进行的是针对某市按月进行患病人次预测,希望能够将误差控制在5%左右,在确定模型稳健性之后既可通过预测序列和实际序列的比对来查找患病人次异常的时间点。
  • 动态预测:能够使用一种确定的模型进行长期迭代预测,并且要求能够预测每年患病人次序列的波峰变化情况。
  • 可扩展性高:确定一种模型或方法,能够应用到不同细分序列(如不同地区、不同人群的患病人次序列)、平行序列(如人次和金额序列)的预测当中,并且通过平行序列的比对来查找异常点。

我们选择时间序列模型进行分析,查看一下数据图。

在这里插入图片描述

下面查看实际的患病人次与预测的人次之间的差距

在这里插入图片描述

通过对结果进行分析可以看出,以季度为单位进行迭代式动态预测,以误差率作为评判指标,预测集和训练集无交集,可见模型较为稳健,并将误差率控制在5%-10%左右。</

  • 2
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值