《大数据时代》所记所感

现在想想,当初之所以能够接触到《大数据时代》这本书,正是由于“大数据”的关系。当时我在各大图书销售、阅读排行榜上都看到该书名列前茅,于是在没有参阅任何书评的情况下将该书收入囊中(如果当时我已阅读过本书,也许我会多一些思考)。今天终于利用了一下午时的间读完了该书,以下即是对书中重点的笔记,及其引发的思考。

书中通过大数据时代 对人类”思维"、“商业”以及“管理”上引发的变革, 阐述了大数据的基本概念和特点。

引言

  • 大数据的 核心 是预测。具体一点,大数据的 核心 是建立在相关关系分析法基础上的预测。
  • 大数据发展的 核心动力 来源于人类测量、记录和分析世界的渴望。

思维上的变革

1. 抛弃随机样本,使用全体数据

随机样本是信息处理能力受限的时代的产物。当时的世界需要数据分析,却又缺少收集数据的工具,所以只好用随机样本来分析整体的特性。在信息技术如此发达的今天,这一限制被削弱。

2. 不需要关注数据的精确度

原因如下:
  • 世界上大概只有5% 的数据是结构化且适用于传统数据库的,只有对数据的精确度保持一定的容忍,才能更好地利用剩下的95% 非结构化的数据。彼得.诺维格在《数据的非理性效果》中写道,“大数据基础上的简单算法比小数据基础上的复杂算法更加有效。”例如在自然语义研究上(中文划词),基于大量训练数据的简单算法可能会比基于少量训练数据的复杂算法更加有效。
  • 在大数据时代下,对数据去噪变得不可能。在随机样本时代,数据去噪是重要的预处理过程。因为样本本身就是全体数据的一个很小的子集,如果其中存在错误数据,那么该错误会被放大。然而在大数据时代,数据去噪及其复杂。“大数据”最早的定义是“数据过大,以至于不能在单台计算机中进行合适的处理”(如今提到的“大数据”已经比这个定义要“大”更多)。如果对如此之多的数据进行去噪,是一件非常耗时耗力的事情,即使可以完成,其结果也可能不再具有时效性了。
  • 大数据的目标不在于给出确切的结果,而在于给出基于一定概率的预测。与致力于避免数据错误相比,对错误的包容会带来更多的好处。

3. 不再热衷于因果关系,而关注于相关关系

  • 大数据只能分析出相关关系,而不是因果关系。记得大学时候,统计学老师给我们说过一个例子:有一个风景宜人,山清水秀的小镇,鸟儿在那儿歌唱,花儿在那儿绽放,但是数据却显示这个小镇上有40%以上的居民患有癌症。许多研究者对此感到好奇,他们纷纷来到小镇上,采集水源,分析空气质量,但却没有发现任何异常。最后通过了解才得知,由于小镇风景太美,很多患了癌症的病人都迁居于此,度完余生,这才使得小镇癌症病人比例如此之高。
  • 有些因果关系来源于臆断,会诱使我们对世界产生错误的理解。人类有两种思维模式:
    • 第一种是不费力的快速思维。例如我在吃完中饭后,就开始拉肚子,很容易让我得出中饭的食物不干净导致我肠胃不适这样一种因果关系,实际上也许是因为我上午穿衣太少感染风寒,或者别的原因引起不适。快速思维在古代很有用,它帮助人类在信息量缺乏却必须快速做出决定的危险情况下化险为夷。
    • 第二种是比较费力的慢性思维,它要求人类对因果关系进行严格的分析推理。由于大数据只揭示相关关系,那么由相关关系到因果关系的转变,就需要有一个专门的职业来完成,例如后面将提到的“大数据算法师”。
  • 相关分析摆脱了传统的思维模式和特定领域里隐含的固有偏见。正因为此,大数据才能为我们提供如此多的新的深刻洞见。

商业上的变革

1. 一切皆可“量化”

书中举了很多“量化”的例子,例如日本先进工业技术研究所的教授越水重臣将人的坐姿量化,并将其运用在汽车防盗系统中。现实生活中类似的例子不胜枚举,例如智能手环,可以将人类的睡眠质量量化。所以没有做不到,只有想不到。世界本质上就是由信息构成的。
IT,IT。我们一直都只关注“T",现在是时候关注”I" 了。

2. 数据创新

数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分则隐藏在表面之下。
  • 数据的再利用。例如利用用户搜索时输入的关键词,来分析今年夏天的流行色(关键词即用来作为搜索行为的输入,也可以用来作为分析的源数据)。
  • 数据重组。
  • 可扩展数据。零售店内的摄像头,不仅可以防盗,还可以分析用户在不同区域的停留时间。
  • 数据的折旧值。有些数据具有时效性,但是大多数数据在其基本价值减少之后,潜在价值依然很高。
  • 数据废气。有些看似不起眼的数据,也可以被很好的利用。例如在搜索引擎里输入的错误关键字(“苹果”输成了“平果”),你会想到将这样的数据用于自动拼写检查吗?
  • 开放数据。政府是最大的信息采集者,呼吁政府****(此处省略一万字)

3. 角色定位

什么是大数据思维?
所谓的大数据思维是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。
在大数据时代下,会产生以下三种公司:
  • 基于数据本身的公司。 它们通常是数据持有者
  • 基于技能的公司。 它们通常是咨询,分析公司,本身不持有数据。
  • 基于思维的公司。 它们旨在挖掘数据的新价值的独特想法。

管理上的变革

1. 风险

本章作者结合社会学,伦理学,对大数据时代即将带来的风险和挑战做了分析。
  • 隐私保护
  • 获取用户授权。 由于数据经常会被再利用,所以在数据被收集时,收集者可能还没有想到如何使用该数据。当下手机应用里的授权声明,只是说明了应用会收集哪些数据,但是没有说明 如何对数据进行使用,这是不够的。
  • 预测与惩罚。 由于大数据的核心是预测,那么有没有可能在罪犯尚未犯罪之前就预测出其犯罪行为,并将其治罪(有点科幻)。但是我们又如何对一个没有发生的行为定罪呢?
  • 盲目崇拜数据。记得“大跃进”的惨痛教训吗?前段时间还听说有人在GPS导航的指引下,驾车冲出悬崖。基于以下几点原因,我们不应该盲目迷恋数据(在理性与感性之间,没有你死我活的关系):
    • 数据的质量可能很差(不精确的),数据只会给出一个概率
    • 数据本身可能是不客观的
    • 可能存在分析错误,或者具有误导性
    • 数据可能根本达不到量化的目的。

2. 掌控

  • 隐私保护。 数据的使用者应该为其行为负责(而不是用户)。因为使用者最了解他要如何使用数据,并且使用者是数据二级应用的最大受益者。
  • 人们可以并且应该为他们的行为而非倾向负责。
  • 大数据算法师(我总是会想到“大魔法师”)的崛起。
    • 崛起的原因:首先大数据的运作超出我们正常的理解范围,大数据的运作更像是一个黑盒。假如大数据给出一个预测,经常吃大豆的人有75%的可能是同性恋。我们如何知道这是一个新发现,还是程序分析的一个bug?再者,大数据给出的结果是相关关系,需要进一步的工作将其转换为因果关系。
    • 大数据算法师的条件与职责:
      • 计算机科学、数学(包括统计学)领域的专家
      • 负责大数据分析和预测的评估
      • 保证公正与保密
      • 负责评估数据源、分析和预测工具的选取,甚至还包括选择运算法则和模型。
      • 判断对计算结果的解读是否正确。
  • 反数据垄断
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值