再议大数据的本质特征

1、细粒度多维度:要微观干预能力不要宏观统筹能力

大数据的应用价值不在于它“大”,而在于其细粒度多维度信息的价值,即微观干预能力。数据的细粒度多维度往往代表了一个事物的微观多种属性,代表了个体看待一个事物的不同角度,是大数据的一个本质特征之一。

例如,将市场交易信息汇总成实时数据供宏观政策决策不是大数据的价值(抽样也可实现),根据个人交易记录和行为特征降低在线交易的撮合成本是大数据的价值(更高效率的微观干预)。

再例如,百度曾经发布过一个比较有意思的统计结果:《中国十大“吃货”省市排行榜》。百度在没有做任何问卷调查和深入研究的情况下,只是从“百度知道”的7700万条与吃有关的问题中,挖掘出一些结论,反而比很多的学术研究更能反映问题。百度知道的数据维度很多、粒度很细,它们不仅涉及食物的做法、吃法、成分、营养价值、价格、问题来源地、时间等显性维度,而且还蕴藏着很多别人不太注意的隐含信息,例如提问或回答者的终端设备、浏览器类型等。虽然这些信息看上去“杂乱无章”,但实际上正是这些杂乱无章的数据将原来看似无关的维度联系起来了。经过对这些信息的挖掘、加工和整理,就能得到很有意义的规律统计。而且,这些信息中能够挖掘出的大家感兴趣的信息,远比大家想象的要多。

2、完备性:要全体不要抽样

大数据的完备性,或者说全面性,代表了大数据的另外一个本质特征,而且在很多问题场景下是非常有效的。

例如,Google的机器翻译系统就是利用了大数据的完备性。它通过数据学到了不同语言之间很长的句子成分的对应,然后直接把一种语言翻译成另一类,前提条件就是使用的数据必须是比较全面地覆盖中文、英文,以及其他的各种语言的所有句子,然后通过机器学习,获得两种语言之间各种说法的翻译方法,也就是说具备两种语言之间翻译的完备性。我们知道Google是目前互联网数据的最大拥有者,随着人类活动与互联网的密不可分,Google所能积累的大数据将会越来越晚辈,它的机器翻译系统也就自然越来越准确了。

另一方面,传统的调查方式都是抽样的,抽取有限的样本进行统计,从而得出整体的趋势来,之所以选择抽样而不是统计全部数据,只有一个原因,那就是全部数据的数量太多了,根本没法操作。

抽样的核心原则就是随机性,不随机就不能反映整体趋势性。例如搞一个保暖内衣的调查,找了一群精壮的武警战士试穿,战士们穿上了普遍反映不冷,但这并不能说明内衣的保暖效果有多好。

抽样随机性的道理谁都知道,但要做到随机性其实是很难的。例如电视收视率调查,要从不同阶层随机找被调查人,但高学历高收入的大忙人们普遍拒绝被调查,他们根本就不会为几条毛巾赠品而耽误时间,愿意接受调查的多是整天闲得无聊的低收入者,电视收视率的调查结果就可想而知。

互联网、移动互联网、以及物联网为大数据的采集带来的新手段,云计算为处理大数据带来了新方法。还以电视收视率调查为例,互联网电视普及后,每一部电视正在收看什么节目的信息会毫无遗漏地发送到调查中心。这就是大数据的第二个特点:要全体不要抽样。对全部数据进行统计分析,其结果当然会更加准确。

3、关联性:相关关系比因果关系更重要

大数据时代,数据之间的相关性在某种程度上取代原来的因果关系,让我们从大量的数据中直接找到答案,即使不知道原因,是大数据的本质特征之一。

例如,老王开了个包子铺,有时做少了不够卖,有时做多了没卖完,两头都是损失。老王琢磨着买包子的都是街坊,他们买包子是有规律的,例如老张只在周六买,因为闺女周末会来看他,而且闺女就爱吃包子。于是老王每卖一次就记次账,谁在哪天买了几笼包子,并试图找出每个街坊的买包子规律。

数据虽然越记越多,但老王啥规律也没找出来,即使是老张也都没准,好几个周六都没来买,因为他闺女有事没来。有个人给老王支招,你甭记顾客,就记每天卖了多少笼就行,这个法子明显简单有效,很容易就看出了周末比平时会多卖两笼的规律。

这个例子虽然简单,却道出了大数据的一个重要特点:相关关系比因果关系更重要。周末与买包子人多就是相关关系,但为什么多呢?是因为老张闺女这样的周六来吃包子的人多?还是周末大家都不愿意做饭?对这些可能性不必探究,因为即使探究往往也搞不清楚,只要获得了周末买包子的人多,能正确地指导老王在周末时多包上两笼,这就行了。

要相关不要因果,这是大数据思维的重要变革,以前数据处理的目标更多是追求对因果性的寻找,或是对猜测的因果性的验证,人们总是习惯性地找出个原因,然后心里才能踏实,而这个原因是否是真实的,却往往是无法核实的,而虚假原因对面向未来的决策来说是有害无益的。承认很多事情是没有原因的,这是人类思维方式的一个重大进步。

4、不确定性:要效率不要精确

大数据的不确定性最根本的原因是我们的这个世界是不确定的,当然也有技术的不成熟、人为的失误等等。总的来说,大数据往往是不准确,并充满噪音的。

俗话说的好,萝卜快了不洗泥,既然我们要的是全体数据,自然会夹杂进来一些错误的数据,这是难以避免的。我们传统的数据分析的思路是“宁缺勿烂”,因为传统小数据分析的数据量本身并不大,任何一个错误数据都有可能对结果产生相对较大的负面影响,对错误数据必须花大精力去清除,这是小数据时代必须坚持的原则。

大数据时代的原则就变了,变成了:要效率不要精确。并不是说精确不好,而是因为在大数据时代是做不到的,如果继续把排除错误数据作为重要工作,那大数据分析就进行不下去了。更重要的是,大数据分析的目标在于预测和干预,而不在于追溯以前发生过的事件的真相。

5、隐私威胁:大数据时代的裸奔

大数据时代使得每个人都在裸奔。

先看个正面的例子。你走在大街上,基站的智能天线以一道极窄的波束指向你的手机,从而获得你的方位角,通过开机瞬时的上百次功率调整和探询,换算后就能获得你与基站的距离,两个信息结合就精准地确定了你的位置。根据你的搜索记录,互联网早已知道了你的爱好,然后手机“滴”地一声通知你,你前方10米处右侧有您最喜爱吃的咸豆腐脑店,正在八折酬宾中,“滴”地又来了一声,老板已得知您是咸豆腐脑的忠实拥护者,特别给您打五折,来尝一碗呗。

再看个反面的例子。我走在大街上,手机“滴”地一声,通知我前面有个同志聚会,系统通过我以前的搜索和看过的片子早已确定了我的性取向,并将我的信息经过精确配对发送给了好多基友,但我并不想出柜,这可咋整啊?

这个反面例子道出了大数据时代我们都面临的一个重大问题,那就是隐私权问题。美国某机构曾做过一个实验,根据网友的搜索记录来筛定目标,虽然信息已经进行了模糊,还是有不愿意出柜的基友被筛出来了,基友的妈妈非常震惊和生气,将该机构告上了法庭。

微博上常有维权人士声称电话被政府监听了,因为手机语音出现了不正常的声音,其实这是他们多心了,他们的电信知识还停留在用鳄鱼夹搭电话线窃听的阶段。并不是说政府不会窃听,而是说如果政府窃听你的电话,你是绝对察觉不出来的,多手段全方面的监控手段早已超出了外行的想象力。即使是技术内行,例如贩卖国家机密的间谍被收网后往往会马上崩溃,他所有的电话短信邮件出行会面谈话都有清清楚楚的铁证。所以记得不要做坏事哦,人在做,数在看。

犯罪成本太高了,将来无死角的摄像监控头会记录下一切,即使你犯罪时蒙着面,根据前两天你没蒙脸踩点时的录像,通过姿态步态的匹配算法就能把你筛选出来。现在公安系统有句话“只要上手段,没有查不出来的”,上手段就是指包括摄像头监控、手机监控、网络监控等综合手段。现在的基础设施还不完善,等将来所有的路灯杆都变成了多传感监控器,加上强大的大数据分析能力,你还想咋藏?

更有意思的是,将来的犯罪逮捕会变成事前,有天你啥事没做睡在床上就被逮捕了(虚构的,实际法律上不支持),警察通告你:根据警方对你所有信息的大数据分析,显示你已经知道了老婆出轨之事,根据以往犯罪案例及你本人性格的大数据分析结果,你有76.3%的概率会在本周内对老婆进行轻伤以上程度的犯罪,超过了法律规定的60%轻伤以上犯罪概率必须入监的标准,特羁押你一个月,根据大数据分析结果,放出来后的你仍然犯罪的概率会降低到法律规定可以释放的5%以下。听着很安全吧?但是不是也感到了毛骨悚然?

在大数据时代,我们每个人都是赤条条地在信息社会中裸奔,真的是光着屁股一丝不挂地那种裸奔,难到没有人意识到这点吗?当然不是,英国等西方国家早就对街道监控摄像头展开了全社会的大讨论,安全与隐私该如何权衡?随着近年来随着恐怖主义的盛行,安全显然更重要了,公民们很无奈地同意把更多的隐私权交给了政府,以获得更大的安全感。

必须对公民隐私信息进行分级制的严管,公安部门掌握着每个人的开房信息,如果不涉及到重大违法犯罪的话,绝不能滥加使用,更不能透露给当事人的配偶,否则社会就会大乱。掌握信息和利用信息的应是独立的两个机构,如果让利用信息的公安部分掌管公民所有隐私信息,那就会成为一个人人自危的恐怖国家。

国际上也一样。近几年,瑞士银行开始准备向其他国家交出外国人账户的详细资料,很多国家都予以反对,包括中国,希望瑞士银行保护隐私。同时,有人又提出不同看法,认为还是公布的好,这样可以使得部分犯罪分子以及贪官暴露于天下。这样的逻辑谬论不少见。实际上,不论是什么人,不论其职位,无论其身份,都应该受到隐私保护,都应该享有私人的权利。

我们现在该如何做好迎接大数据时代的准备?应该培养公权机构绝不能泄露公民隐私的社会舆论。如果放任这种公权力的滥用,我们每个人将来都会成为光屁股裸奔的人,光不光屁股则取决于掌握公民信息的权力人士的一念之差。对掌握公民隐私信息的公权力的严格控制,应该成为全社会的共识。


温故而知新~

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
深刻理解大数据本质特征-推动大数据产业高质量发展全文共6页,当前为第1页。深刻理解大数据本质特征-推动大数据产业高质量发展全文共6页,当前为第1页。深刻理解大数据本质特征 推动大数据产业高质量发展 深刻理解大数据本质特征-推动大数据产业高质量发展全文共6页,当前为第1页。 深刻理解大数据本质特征-推动大数据产业高质量发展全文共6页,当前为第1页。 从文明之初的"结绳记事",到文字发明后的"文以载道",再到近现代科学的"数据建模",数据一直伴随着人类社会的发展变迁。随着新一代信息技术的快速发展和广泛应用,人类掌握数据、处理数据的能力实现质的跃升,万物数字化构建现实世界的数字空间映像已成为可能,为大数据产业发展带来了新的发展机遇。工业和信息化部出台《"十四五"大数据产业发展规划》(以下简称《规划》),立足大数据本质特征,聚力数据要素价值释放,从治理、技术和融合应用等方面系统布局,为"十四五"时期大数据产业高质量发展提供了重要指引。 一、大数据引发经济社会根本性变革 大数据提供了人类社会认识世界的新思维。思维是一种构造心理联想和对世界建立模型的脑力过程,是接受和处理信息、建立概念、推理决策的过程,也可视之为看待问题、理解问题、解决问题的方式方法。大数据思维源起于计算思维,是用计算的方式去建模、理解、解决具体问题的思维,并日益发展成为当前时代认识问题并解决问题的重要方法学。20世纪90年代西方学者尼葛洛庞帝提出,"数字化生存"时代已经到来,这个时代需要"数字化生存能力"。这意味着,为了更好地"建立概念、解决问题、推理和决策",深刻理解大数据本质特征-推动大数据产业高质量发展全文共6页,当前为第2页。深刻理解大数据本质特征-推动大数据产业高质量发展全文共6页,当前为第2页。我们需要具备与"数字化"和"以数据为中心"相匹配的新思维方式。大数据提供了通过数据去发现和理解现实复杂系统的运行状态和规律、去探索未知和求解现实问题的新型方法,成为人类社会改造自然和社会的新手段;而用大数据的思维认识和思考世界,通过编程的方式建模和求解,也应该成为未来社会人类生存的必备能力。 深刻理解大数据本质特征-推动大数据产业高质量发展全文共6页,当前为第2页。 深刻理解大数据本质特征-推动大数据产业高质量发展全文共6页,当前为第2页。 大数据承载了生产要素的新价值。大数据蕴含的价值主要体现在两个方面:从本体论视角来看,数据本身蕴含了信息、知识、规律甚至智慧,这些都能转化为实际的经济价值;从方法论视角来看,数据成为其他生产要素的数字空间"孪生",从而为现实世界赋值、赋能。通过对海量数据的处理分析、推动多源数据的碰撞融合、以数据的快速流动带动其他传统要素优化配置、精准并高可信度地映射各类事物实际运行状态,持续促进数据应用价值高水平释放。不同于物质与能源,数据不会因使用而消耗,越使用价值发挥就越大,同时使用过程中又会产生新的数据,成为新的"生产资源"用于"再生产",从而创造新价值。 大数据加速了经济社会数字化发展的新趋势。当前,数字经济、数字政府、数字社会建设成为时代趋势,其本质是人类社会经济活动的全面数字化,既包括以大数据为代表的信息技术及产业发展,还包括传统行业领域转型发展。其中,数字化转型、网络化重构、智能化提升是经济社会转型发展深刻理解大数据本质特征-推动大数据产业高质量发展全文共6页,当前为第3页。深刻理解大数据本质特征-推动大数据产业高质量发展全文共6页,当前为第3页。的基本实施路径,大数据作为主线贯穿始终。即数字化奠定基础,实现数据资源的获取和积累;网络化构建平台,促进数据资源的流通和汇聚;智能化展现能力,通过多源数据的融合分析呈现信息应用的类人智能。以当前智慧城市建设为例,正在开启"全数化、建孪生"的新阶段,通过全面感知城市、获取城市运行数据,在数据连通融合基础上进行分析挖掘,建立城市运行数字影像,从而实现数据驱动的城市智能决策、精准管理和全面服务。 深刻理解大数据本质特征-推动大数据产业高质量发展全文共6页,当前为第3页。 深刻理解大数据本质特征-推动大数据产业高质量发展全文共6页,当前为第3页。 二、《规划》的核心是促进大数据特性优势释放 当前,人类社会正在进入以数据的深度挖掘和融合应用为主要特征的信息化3.0阶段,信息技术从辅助各行业领域发展的工具,转变为引领社会经济发展的核心引擎,通过挖掘和释放大数据思维价值、经济价值和赋能价值,驱动数字经济爆发式增长。《规划》深刻把握大数据本质特征,在数据治理、技术创新和融合应用等方面系统布局,在以大数据特性优势发挥、数据要素价值释放带动产业高质量发展的路径探索上亮点突出。 治理先行,加快数据要素市场培育。大数据高应用价值之所以未能得到充分释放,很大程度上是因为大数据的规模性、多样性和流动性均是"双刃剑"

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值