2020-12-18

大数据技术概述

大数据的概念

大数据使用是非常广泛的,然而什么是大数据呢?大数据也被称是巨量数据,这个技术涉及到的数据规模很大,通过管理与撷取技术整理出对企业有积极作用的数据,大量、高速、多样性及价值是大数据的特点。

现在大数据是一种前沿技术,四个V或四个层面是大数据技术的特征,帮助企业从各种各样的数据中提取到有价值的信息,这可影响到企业未来发展方向。相比较传统的数据分析,大数据分析有信息量大、分析查询复杂特点。任何一个行业或是领域数据是很庞大的,使用撷取和管理技术能分析这些数据。

面对海量的行业数据,大数据技术能做出快速、高效的反应。现在市场变化与发展是非常迅速的,快速的数据分析满足性能上的要求。企业在使用大数据技术时,一定要注意大数据平台创建。

不同的行业数据来源、非结构性的数据都有多样特性,在进行数据管理与分析前,首先要进行数据清洗与整理,通过分析与筛选技术得到有价值的信息。有时数据采集存在不及时、数据采集不够全面及数据不连续特性,然而当采集数据达到一定规模时,通过大数据技术便可获得自己需要的数据。

大数据是什么呢?大数据能随时处理海量数据,任何一个细微的数据分析都有很大价值。在大数据时代,每一个人都能享受到大数据技术带来的便利,大数据统计让企业未来发展好一些。

大数据的产生

计算机和网络已经成为当今社会不可或缺的重要工具,人们在各个领域中都需要计算机的帮助,人们利用计算机的高速度和大容量的特点完成了原来不能完成的任务,并且这种大容量的应用越来越广。例如淘宝网站累计的交易数据量高达100PB;百度网站目前的总数据量已超过1000PB,每天处理网页的数据达到10PB~100PB;中国移动公司在某一个省一个月的电话通话记录数据高达 0.5PB~1PB;一个大型城市道路车辆监控数据三年达200亿条、总量120TB。据世界权威信息咨询分析公司研究报告预测:全世界的数据量将从2009年的0.8ZB增长到2020年的35ZB,10年将增长44倍。

人们在早些年习惯把大规模数据称为“海量数据”,但实际上,大数据(Big Data)这个概念在2008年就已经被提出。2008年,在Google公司成立10周年之际,著名的《自然》杂志专门出版了一期专刊,讨论大数据相关的一系列技术问题,其中就提出了大数据(Big Data)的概念。

随着对大数据越来越多的了解,人们常常会问,究竟怎样的数据才能称作大数据?其实,关于大数据的定义,难以有一个非常准确的说法。维基百科给出了一个关于大数据的描述:大数据是指无法使用传统和常用的软件技术和工具在一定时间内完成获取、管理和处理的数据集。其实,如今“大数据”一词的重点已经不仅在于数据规模的定义,它更多的是代表着计算机以及信息技术发展进入了一个新的时代,代表着大数据处理所需要的新技术和新方法,也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。

由于人们已经认识到大数据的迫切性和重要性,近年来大数据技术已经在各国政府、学术界、以及工业界得到高度重视,全球掀起了一场可与20世纪90年代的信息高速公路相提并论的研究热潮。

大数据的来源

1、交易数据,包括POS机数据、信用卡刷卡数据等;

2、人为数据,包括电子邮件、文档、图片以及通过微信、博客、推特等产生的数据流;

3、机器和传感器数据,如感应器、量表和其它设施的数据。

大数据的意义

现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。

有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。

大数据的价值体现在以下几个方面:

1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销

  1. 做小而美模式的中小微企业可以利用大数据做服务转型

  2. 面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值

第四范式——大数据对科学研究的影响

范式”一词,英文名Paradigm,一般指已经形成模式的,可直接套用的某种特定方案或路线。在计算机科学界,编程有编程范式,数据库有数据库架构的范式,不一而足。总之,你将其认为是某种必须遵循的规范或大家都在用的套路即可。

在科学发现领域,第一范式,是指以实验为基础的科学研究模式。简单说来,就是以伽利略为代表的文艺复兴时期的科学发展初级阶段。在这一阶段,伽利略老师爬上比萨斜塔扔俩铁球,掐着脉搏为摆动计时等等我们耳熟能详的故事,为现代科学开辟了崭新的领域,开启了现代科学之门。

当实验条件不具备的时候,为了研究更为精确的自然现象,第二范式,即理论研究为基础的科学研究模式随之而来。在这个阶段,科学家们会将无法用实验模拟的科学原理用模型简化,去掉一些复杂的因素,只留下关键因素,然后通过演算得到结论。比如我们熟知的牛顿第一定律:任何物体都要保持匀速直线运动或静止状态,直到外力迫使它改变运动状态为止。这个结论就是在假设没有摩擦力的情况下得出的。令人欣喜的是,当时的理论科学与实验科学结合得如此完美,任何一个理论都很容易被实验所证实。因此第二范式很快成为了重要的科研范式。

第二范式发展到极致是19世纪末,当时牛顿三大定律解释了经典力学,麦克斯韦理论解释了电磁学。经典物理学的大厦构建得宏伟壮观,而且似乎毫无瑕疵。结果在20世纪初,天边的两朵乌云无情地破坏了它的完美。量子力学和相对论两座暂新的高山拔地而起,那是科学的另一个黄金时代。然而,不论是量子力学还是相对论,不约而同地以理论研究为主,超凡的头脑和计算超越了实验。尽管在一段时间之后,经过复杂设计的实验终究还是证实了计算的理论。因此每一位中学物理老师都会把牛顿和爱因斯坦相提并论,并称人类历史上最伟大的两位物理学家。

随着验证理论的难度和经济投入越来越高,正在科学研究逐渐力不从心之际,另一位顶尖科学家站了出来。冯·诺依曼老师,在上世纪中期提出了现代电子计算机的架构,并一直持续到今天。于是,随着电子计算机的高速发展,第三范式,即利用电子计算机对科学实验进行模拟仿真的模式得到迅速普及。不论在基础科学研究还是工程实验中,计算机仿真越来越多地取代实验,成为科研的常用方法。半个世纪之后的2013年,诺贝尔化学奖甚至授予了用计算机模拟开发多尺度复杂化学系统模型的科学家卡普拉斯、莱维特和瓦谢勒。诺贝尔化学奖评选委员会在当天发表的声明中说:现在,对化学家来说,计算机是同试管一样重要的工具,计算机对真实生命的模拟已为化学领域大部分研究成果的取得立下了“汗马功劳”。

那么,当时间进入互联网时代,吉姆·格雷认为,鉴于数据的爆炸性增长,数据密集范式理应并且已经从第三范式即计算范式中分离出来,成为一个独特的科学研究范式,即“第四范式。

人类从依靠自身判断做决定到依靠数据做决定的转变,体现了大数据对科学研究的影响,是大数据做出的最大贡献之一。

大数据的4个特征

1)规模性(Volume):大数据需要采集、处理、传输的数据量大;处理PB级的数据是比较常态的情况。企业内部的交易信息,网络世界中的商品、物流信息,人与人的交互信息、位置信息等都是大数据的主要来源。
2)多样性(Variety):大数据的种类多、复杂性高;大数据有不同格式,有结构化的关系型数据,有半结构化的网页数据,还有非结构化的视频音频数据。而且非结构化数据。这些非结构化数据广泛存在与社交网络、物联网、电子商务之中,其增长速度比结构化数据快数十倍。
3)高速性(Velocity):大数据需要频繁采集,处理并输出;因为数据会存在时效性,需要快速处理并得到结果。如一些电商数据,如果当天的信息不处理,就将会影响到很多需要立即做出的商业决策。要达到立竿见影而非后事见效,实现实时获取需要的信息,1秒是临界点,即对与很多实时大数据应用而言,数据必须要在1秒钟内进行处理,否则处理结果就是过时和无效的。
4)价值密度低(Value):大数据不经过相应的处理则价值较低。挖掘大数据的价值和类似于沙里淘金。以视频为例,一个一小时的监控视频数据,可能有用的数据只有一俩秒。如何通过强大的算法更迅速地完成数据价值的“提纯”是目前大数据技术研究的重要课题。

大数据的表现形态

1、数据分析及挖掘

数据统计及分析主要是基于存储的海量数据进行普通的分析和分类汇总,以满足大多数常见的分析需求。数据挖掘一般没有预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,实现高级别的数据分析的需求,丰富的历史数据是数据挖掘的先决条件。比较典型的算法有回归、分类、聚类、关联分析。机器学习正是如此,分为监督式学习算法、无监督式学习算法、半监督式学习算法。

2、机器学习

监督式学习算法是从带标签(标注)的训练样本中建立的训练样本中建立模式,并依此推测新的数据标签的算法。比如回归、神经网络、决策树、支持向量机、贝叶斯、随机森林。无监督式学习算法是在学习时并不知道其分类结果,目的是去对原始资料进行分类,以便了解资料内部结构的算法。比如聚类、主成分分析、线性判别分析降维。半监督式学习算法是利用少量标注样本和大量未标注样本进行机器学习,利用数据分布上的模型假设,建立学习器对未标签样本进行标签。

3、数据仓库

从企业角度来说,无论是数据库、数据仓库还是大数据都是解决不同需求、处理不同级别数据量的技术,它们之间并无冲突。针对不同需求和现状进行技术选择,各种技术相互补充、相互协作。目前阶段对于大部分企业来说,想要开展一个全新的大数据项目似乎无从下手。从现有数据仓库建设理论和经验入手,引入部分大数据技术,特别是实现非结构化数据的收集、存储和处理是一种比较可行的方法。

4、数据安全

大数据蕴藏着价值信息,但数据安全面临着严峻挑战。一方面,大数据本身的安全防护存在漏洞。虽然云计算对大数据提供了便利,但对大数据的安全控制力度不够,API访问权限控制以及密钥生产,存储和管理方面的不足都可能造成数据泄露。另一方面,在用数据挖掘和数据分析等大数据技术获取价值信息的同时,攻击者也在利用这些大数据技术进行攻击。

大数据技术的表现形式有哪些.中琛魔方大数据分析平台(www.zcmorefun.com)表示大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为人类的社会经济活动提供依据,从而提高各个领域的运行效率,大大提高整个社会经济的集约化程度。

数据的应用场景

大数据有哪些主要的应用场景?

大数据的应用对象可以简单的分为给人类提供辅助服务,以及为智能体提供决策服务。

大数据不仅包括企业内部应用系统的数据分析,还包括与行业、产业的深度融合。具体场景包括:互联网行业、政府行业、金融行业、传统企业中的地产、医疗、能源、制造、电信行业等等。通俗地讲“大数据就像互联网+,可以应用在各行各业",如电信、金融、教育、医疗、军事、电子商务甚至政府决策等。

对企业而言,大数据可提高工作效率,降低企业成本,精准营销带来更多客户。

对政府而言,可以利用大数进行统筹分析、提高管理效率、管理抓获犯罪分子等。

对个人而言,可以利用大数据更了解自己等。

举例一些主要应用的行业:

制造业:大数据可以帮助制造商减少成本和浪费,并在更短的时间内制造出高质量的产品。

金融:大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重大作用。

零售餐饮行业:利用大数据实现餐饮O2O模式,彻底改变传统餐饮经营方式。通过了解顾客的喜好,可以对营销方案进行改进、服务转型。

医疗保健行业:改善治疗或向患者提供更好的医疗援助;提高行政管理、成本管理、人力资源/人员管理和供应管理的效率。

能源行业:大数据能加速推进能源产业发展及商业模式创新等。

教育产业:利用大数据来跟踪学生表现的变化,设计教育形式等。加米谷大数据培训机构。

大数据的关键技术

Part 1.大数据采集

数据采集是大数据生命周期的第一个环节,它通过RFID射频数据、传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。由于可能有成千上万的用户同时进行并发访问和操作,因此,必须采用专门针对大数据的采集方法,其主要包括以下三种:

A.数据库采集

一些企业会使用传统的关系型数据库MySQL和Oracle等来存储数据。谈到比较多的工具有Sqoop和结构化数据库间的ETL工具,当然当前对于开源的Kettle和Talend本身也集成了大数据集成内容,可以实现和hdfs,hbase和主流Nosql数据库之间的数据同步和集成。

B.网络数据采集

网络数据采集主要是借助网络爬虫或网站公开API等方式,从网站上获取数据信息的过程。通过这种途径可将网络上非结构化数据、半结构化数据从网页中提取出来,并以结构化的方式将其存储为统一的本地数据文件。

C.文件采集

对于文件的采集,谈的比较多的还是flume进行实时的文件采集和处理,当然对于ELK(ElasTIcsearch、Logstash、Kibana三者的组合)虽然是处理日志,但是也有基于模板配置的完整增量实时文件采集实现。如果是仅仅是做日志的采集和分析,那么用ELK解决方案就完全够用的。

Part 2.大数据预处理

数据的世界是庞大而复杂的,也会有残缺的,有虚假的,有过时的。想要获得高质量的分析挖掘结果,就必须在数据准备阶段提高数据的质量。大数据预处理可以对采集到的原始数据进行清洗、填补、平滑、合并、规格化以及检查一致性等,将那些杂乱无章的数据转化为相对单一且便于处理的构型,为后期的数据分析奠定基础。数据预处理主要包括:数据清理、数据集成、数据转换以及数据规约四大部分。

A.数据清理

数据清理主要包含遗漏值处理(缺少感兴趣的属性)、噪音数据处理(数据中存在着错误、或偏离期望值的数据)、不一致数据处理。主要的清洗工具是ETL(ExtracTIon/TransformaTIon/Loading)和Potter’s Wheel。

遗漏数据可用全局常量、属性均值、可能值填充或者直接忽略该数据等方法处理;噪音数据可用分箱(对原始数据进行分组,然后对每一组内的数据进行平滑处理)、聚类、计算机人工检查和回归等方法去除噪音;对于不一致数据则可进行手动更正。

B.数据集成

数据集成是指将多个数据源中的数据合并存放到一个一致的数据存储库中。这一过程着重要解决三个问题:模式匹配、数据冗余、数据值冲突检测与处理。

来自多个数据集合的数据会因为命名的差异导致对应的实体名称不同,通常涉及实体识别需要利用元数据来进行区分,对来源不同的实体进行匹配。数据冗余可能来源于数据属性命名的不一致,在解决过程中对于数值属性可以利用皮尔逊积矩Ra,b来衡量,绝对值越大表明两者之间相关性越强。数据值冲突问题,主要表现为来源不同的统一实体具有不同的数据值。

C.数据变换

数据转换就是处理抽取上来的数据中存在的不一致的过程。数据转换一般包括两类:

第一类,数据名称及格式的统一,即数据粒度转换、商务规则计算以及统一的命名、数据格式、计量单位等;第二类,数据仓库中存在源数据库中可能不存在的数据,因此需要进行字段的组合、分割或计算。数据转换实际上还包含了数据清洗的工作,需要根据业务规则对异常数据进行清洗,保证后续分析结果的准确性。

D. 数据规约

数据归约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量,主要包括:数据方聚集、维规约、数据压缩、数值规约和概念分层等。数据规约技术可以用来得到数据集的规约表示,使得数据集变小,但同时仍然近于保持原数据的完整性。也就是说,在规约后的数据集上进行挖掘,依然能够得到与使用原数据集近乎相同的分析结果。

Part 3.大数据存储

大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,以便管理和调用。大数据存储技术路线最典型的共有三种:

A. MPP架构的新型数据库集群

采用MPP架构的新型数据库集群,重点面向行业大数据,采用Shared Nothing架构,通过列存储、粗粒度索引等多项大数据处理技术,再结合MPP架构高效的分布式计算模式,完成对分析类应用的支撑,运行环境多为低成本 PC Server,具有高性能和高扩展性的特点,在企业分析类应用领域获得极其广泛的应用。这类MPP产品可以有效支撑PB级别的结构化数据分析,这是传统数据库技术无法胜任的。对于企业新一代的数据仓库和结构化数据分析,目前最佳选择是MPP数据库。

B. 基于Hadoop的技术扩展和封装

基于Hadoop的技术扩展和封装,围绕Hadoop衍生出相关的大数据技术,应对传统关系型数据库较难处理的数据和场景,例如针对非结构化数据的存储和计算等,充分利用Hadoop开源的优势,伴随相关技术的不断进步,其应用场景也将逐步扩大,目前最为典型的应用场景就是通过扩展和封装 Hadoop来实现对互联网大数据存储、分析的支撑。这里面有几十种NoSQL技术,也在进一步的细分。对于非结构、半结构化数据处理、复杂的ETL流程、复杂的数据挖掘和计算模型,Hadoop平台更擅长。

C. 大数据一体机

这是一种专为大数据的分析处理而设计的软、硬件结合的产品,由一组集成的服务器、存储设备、操作系统、数据库管理系统以及为数据查询、处理、分析用途而预先安装及优化的软件组成,高性能大数据一体机具有良好的稳定性和纵向扩展性。

Part 4.大数据分析挖掘

数据的分析与挖掘主要目的是把隐藏在一大批看来杂乱无章的数据中的信息集中起来,进行萃取、提炼,以找出潜在有用的信息和所研究对象的内在规律的过程。主要从可视化分析、数据挖掘算法、预测性分析、语义引擎以及数据质量和数据管理五大方面进行着重分析。

A. 可视化分析

数据可视化主要是借助于图形化手段,清晰有效地传达与沟通信息。主要应用于海量数据关联分析,由于所涉及到的信息比较分散、数据结构有可能不统一,借助功能强大的可视化数据分析平台,可辅助人工操作将数据进行关联分析,并做出完整的分析图表,简单明了、清晰直观,更易于接受。

B. 数据挖掘算法

数据挖掘算法是根据数据创建数据挖掘模型的一组试探法和计算。为了创建该模型,算法将首先分析用户提供的数据,针对特定类型的模式和趋势进行查找。并使用分析结果定义用于创建挖掘模型的最佳参数,将这些参数应用于整个数据集,以便提取可行模式和详细统计信息。

大数据分析的理论核心就是数据挖掘算法,数据挖掘的算法多种多样,不同的算法基于不同的数据类型和格式会呈现出数据所具备的不同特点。各类统计方法都能深入数据内部,挖掘出数据的价值。

C. 预测性分析

大数据分析最重要的应用领域之一就是预测性分析,预测性分析结合了多种高级分析功能,包括特别统计分析、预测建模、数据挖掘、文本分析、实体分析、优化、实时评分、机器学习等,从而对未来,或其他不确定的事件进行预测。

从纷繁的数据中挖掘出其特点,可以帮助我们了解目前状况以及确定下一步的行动方案,从依靠猜测进行决策转变为依靠预测进行决策。它可帮助分析用户的结构化和非结构化数据中的趋势、模式和关系,运用这些指标来洞察预测将来事件,并作出相应的措施。

D. 语义引擎

语义引擎是是把已有的数据加上语义,可以把它想象成在现有结构化或者非结构化的数据库上的一个语义叠加层。它语义技术最直接的应用,可以将人们从繁琐的搜索条目中解放出来,让用户更快、更准确、更全面地获得所需信息,提高用户的互联网体验。

E. 数据质量管理

是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。

大数据带来的变革

思维变革

大数据时代的思维变革:1.更多 2.更杂 3.更好

1、更多

由传统的随机样本预测,到全体预测的转变。

当数据处理技术已经发生了翻天覆的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,“样本=总体”。

传统“样本”数据是我们基于传统的统计学,利用小样本事件来预测全集发生的概率。而在大数据的思维中,既然是“样本”,那定时存在误差,有误差定会的预测结果产生影响,那就不能称之为准确。随着信息数据采集的便捷性,数据的规模也远远超过我们的想象。采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系却不大,而样本的选择的随机性比样本数量更重要。但这又提出了新的问题,如何有效的选择样本,如何选择样本和全局数据更匹配。在我们遇到各种各样的问题的同时,增加样本空间,看似一个解决问题的办法,但这同样会出现上面的问题。那我们接下来要做什么?大数据是指不再采用随机分析法,而是采用所有数据的方法。其实,这样的处理方法,在具体实现的过程中也会遇到一些问题,但相比于随机抽取“样本”,准确率已不可同日而语。

2、更杂

不再是精确性,而是混杂性。

执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据分析利用的。如果不接受混乱,剩下95%的非结构化数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。

“大数据”通常用概率说话,而不是板着“确凿无疑”的面孔。整个社会要习惯这种思维需要很长的时间,其中也会出现一些问题。但现在,有必要指出的是,当我们视图扩大数据规模的时候,要学会拥抱混乱。这里谈到数据的混杂,必然会牵扯到混杂数据的存储。传统关系型数据库已经无法满足我们的需求,随之NoSql(非关系型数据)应运而生。随着待处理数据量逐渐增多,大家越来越需要一种在集群环境中易于编程且执行效率高的大数据处理技术,NoSql。NoSql不在局限于传统关系型数据库的条条框框,而只是一个key,一个vlaue,最大的特点准许数据的冗余与混杂。这里不再多探讨非关系型数据库的特点。

大数据要求我们有所改变,我们必须能够接受混乱和不确定性。确定性似乎一直是我们生活的支撑。但认为每个问题只有一个答案的想法已经站不住脚了,不管我们承认不承认。一旦我们承认了这个事实甚至拥护这个事实的话,我们离真相又近了一步。

3、更好

不是因果关系,而是相关关系。

在大数据时代,我们不必非得知道现象背后的原因,而是要数据自己“发声”。

其实上述前两个思想的重大转变导致第三个变革,这个变革有望颠覆很多传统观念。而这些传统观念更加基本,往往被认为是社会建立的基础:找到一切事情发生背后的原因。而在更多的时候,寻找数据间的关联并利用这种关联就足够了。这种关联,决定了预测的关键。相关关系的核心是量化两个数据值之间的数理关系。相关关系强调的是指一个数据值增加时,另一个数据只很有可能随着增加。例如谷歌流感趋势:在一个特定的地理位置,越多的人通过谷歌搜索特定的词条,该地区就有更多的人患了流感。相反,相关关系弱就一位置当一个数据值增加时,另一个数据值不会发生变化。例如:我们可以寻找关于个人的鞋码和幸福的相关关系,但会发现几乎扯不上什么关系。

当我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。如果,A和B经常一起发生,我们只需要注意到B发生了,就可以预测A也发生了。当我们不在为有了想法,然后才收集数据去测试想法的可行性的时候。我们已经有了太多的数据和更好的工具,我们要找到之间的相关性,就变得更容易、更快。这也意味着我们必须关注:当数据点以数量级方式增长的时候,我们会观察到许多似是而非的相关关系。而如何获得可利用的相关关系,就是我们再进一步探讨的问题了。建立在相关关系分析法基础上的预测是大数据的核心。

在大数据的背后,我们关注的“是什么”,而不再是“为什么”。我们跳开追本溯源的探究,开始了不在纠结与因果的论断,从颠覆了传统的理念,从关系入手,开启数据大数据的探索。

结论:

大数据,改变人类探索世界的方法。我们需要改变我们的操作方式,使用我们能收集到的所有数据,而不仅仅是使用样本。我们不能再把精确性当做我们探究的重心,我们需要接受混乱和错误的存在。另外,我们应该侧重于分析相关关系,而不再寻求每个预测背后的原因。使我们不再受限于传统的思维模式和特定领域里隐含的固有偏见,大数据才能为我们提供更多更新的深刻洞见。大数据时代将要释放出的巨大价值使得我们选择大数据的理念和方法不再是一种权衡,而是通往未来的必然转变。但是在我们到达目的地之前,我们有必要了解怎样才能到达。在高科技行业里的很多人认为是依靠新的工具,从高速芯片到高效软件等。当然,这可以理解为因为他们自己是工具创造者。这个问题固然重要,但不是我们要考虑的问题。大数据趋势的深层原因,就是海量数据的存储以及越来越多的事物是以什么样的数据形式存在的。

商业变革

1、数据化

一切皆可“量化”

大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。信息技术变革随处可见,但是如今的信息技术变革的重点在“T”(技术)上,而不是在“I”(信息)上。现在,我们是时候把聚光灯打向“I”,开始关注信息本身了。

数据化,不是数字化。数据化与数字化大相径庭。数字化指的的是模拟数据转换成用0和1表示的二进制,这样电脑就可以处理这些数据了。而数据化,是一种把现象转变为可制表分析的量化形式的过程。为了得到可量化的信息,我们要知道如何计量:为了数据化量化了的信息,我们要知道怎么记录计量的结果。量化,是数据化的核心。计算机带来了数字测量和存储设备,这样就大大提高了数据化的效率。计算机可以通过数学分析挖掘出比数据更大的价值。数字化带来了数据化,但是数字化无法取代数据化。当文字变成数据,当方位变成数据,沟通变成数据,你就可以想象,一切都可以数据化了。而这中,我们很难想象的数据,正在日复一日的扩大,我们很难想象的扩大,随之带来的就是存储,处理和展示等一系列问题。我们姑且不去考虑这背后,会产生什么样的联动效应。我们闭上眼,就花花的字符,就在你眼前浮现,这个世界也就在你的眼前。

一旦世界被数据化,就只有你想不到,而没有信息做不到的事情了。我们跨过艰辛的人工分析过程后去揭示隐藏在数据中的价值。而今天,拥有了数据分析工具(统计学和算法)以及必需的设备(信息处理器和存储器),我们就可以在更多领域、更快、更大规模地进行数据处理了。当你抛开传统的思维模式,将世界看作信息,看做可以理解的数据海洋,为我们提供了一个从未有过的审视的视角,去渗透到生活的每一个角落。数据化的影响会使水渠和报纸的影响微乎其微,同时,通过赋予人类数据化世间万物的工具,它也对互联网的地位提出了挑战。但目前,它的主要用途还是在商业领域。谈到商业,第一问题就是:价值。

2、价值

“取之不尽,用之不竭”的数据创新。

数据就像一个神奇的矿山,当它的首要价值被发掘后仍能不断地给予。它的真实价值就像漂浮在海洋中的冰山,第一时间看到的只是冰山一角,而绝大部分都隐藏在其表面之下。

在数字化时代,数据支持交易的作用被掩盖,数据只是被交易的对象。而在大数据时代,事情再次发生变化。数据的价值从它最基本的用途变为未来的潜在用途。这一转变意义重大,它影响了企业评估其拥有的数据及访问者的方式,促使甚至是迫使公司改变他们的商业模式,同时也改变了组织者看待和使用数据的方式。在大数据时代,我们更强调的是数据的“潜在价值”。当我们明白,你所看到的只是冰山一角的时候,我们就应该明白,那些创新型企业如何能够提取其潜在价值并获得潜在的巨大利益。总之,在我们判断数据的价值的时候,我们需要考虑到未来它可能被使用的各种方式,而非仅仅考虑其目前的用途。

数据的价值体现在其所有可能用途的总和。这些似乎无限潜在用途的选择,不再是指传统意义上的利用选择,而是实际意义上可能产生价值的选择。这些选择的总和加在一起就是数据的价值,就是数据的“潜在价值”。同时,我们不再是数据的单遍扫描,而是数据的再利用、数据重组利用、扩展数据利用、数据折旧利用、数据的废除利用、开放数据的利用、数据的估值利用等。

当我们不在站在冰面上看问题的时候,解决问题的方式可能会变得更开阔。而数据价值的关键就是看似无限的再利用,即潜在价值的利用。数据积累的过程固然重要,但是远远不够,因为大部分数据的价值体现在它的使用过程中,而不是仅仅的占有数据本

3、角色定位

数据、技术与思维的三足鼎立

当年,微软以1.1亿美元的价格收购了大数据公司Farecast,而两年后谷歌则以7亿美元的价格购买了给Farecast提供数据的ITA Software公司。如今,我们正处在大数据时代的早期,思维和技术是最有价值的,但是最终大部分的价值还是必须从数据本身中挖掘。

上面我们谈到如何通过创新用途,挖掘出数据新的价值,主要是指我们所说的潜在价值。如今,我们把重点转移到使用数据的公司和它们如果通过数据产生价值如何融入大数据价值链中。

大数据价值链3大构成:

(1)基于数据本身的公司:这些公司拥有大量数据或至少可以收集到大量数据却不一定有从数据提取价值或使用催生创新思想的技能。最好的例子就是Twitter,它拥有海量数据这一点毋庸置疑的,但它的数据是通过两个独立的公司授权给别人使用的。

(2)基于技能的公司:它们通常是咨询公司、技术供应商或第三方数据分析公司。它们掌握了专业的技能但并不一定拥有数据或提出数据创新性用途的才能。比方说:沃尔玛和Pop-Tarts这两个零售商是借助Teradata的分析来获得营销点子,Teradata就是一家大数据分析公司。

(3)基于思维的公司:Jetpac的联合利华的创始人,皮特-华登(PeteWarden),就是通过想法获得价值的一个例子。Jetpac通过用户分享到网上的旅行照片来为人们推荐下次旅行的目的地。对于某些公司来说,数据和技能并不是成功的关键。让这些公司脱颖而出的是其创始人和员工的创新思维,他们有的是挖掘数据的新价值的独特想法。

所谓的大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。数据最终的归宿就是个人,个人的价值。我们处在的不再是思考所谓的可行,而是思考所有的可能。大数据思维,必然会引起一些人的恐慌,也必然引起一些公司的倒闭与转型。传统行业最终都会转变为大数据行业,无论是金融服务业、医药行业还是制造业。当然,大数据不会让所有行业的中等规模的公司消亡,但是肯定会给可以被大数据分析所取代的中等规模的公司带来巨大的威胁。

当我们正在憧憬大数据给我们带来的变革的时候,担忧依然存在。隐私问题,就是不可避免的。在大数据时代,如何关注用户隐私保护,当我们的信息暴露在公开的环境下,我想会是怎样的可怕。这是更是值得我们思考的问题,而这也是大数据给我们带来的不良影响。

管理变革

1、风险

让数据主宰一切的隐患。

我们时时刻刻都暴露在“第三只眼”之下:亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,微博似乎什么都知道,不仅窃取到我们心中的“TA”,还有我们的社交关系网。在大数据时代,不管告知与许可、模糊化还是匿名化,所有的隐私策略都失效了。当大数据变得更加普遍的时候,情况将更加不堪设想。现在我们会谈到数据可以预测一个人是否要犯罪,是否有一些企图,在大数据时代的情况下,这一切都变得不再那么难以想象。预测的目的,不是因为所做而受到惩罚,而是因为将做,即使他们实际上并没有去做。

在我们谈到大数据时代,暴露我们的隐私的情况下,人们为此感到担忧。其实在另一方面,通过大数据预测也可以为我们打造一个更安全、更高效的社会。

大数据的不利影响不是大数据本身的缺陷,而是我们滥用大数据预测所导致的结果。大数据预测是建立在相关性基础上的。让人们为还未实施的未来行为买单是带来不利影响的主要原因。因为我们把个人罪责判定建立在大数据预测的基础上是不合理的。

利益和风险就好比一把双刃剑,我们不能期待占有所有的利益之后,而不承担利益后的风险。那些尝到大数据益处的人,可能会把大数据运用到它不适用的领域,而且会产生过分依赖对大数据分析结果的信赖。随着大数据预测的改进,我们会越来越想从大数据中掘金。

在杜绝对数据的过分依赖,是我们在大数据无所不能的面前能提醒自己的一句法则。而是正确的利用取之有道,而不是成为数据的奴隶。

2、掌控

责任与自由并举的信息管理。

当世界开始迈向大数据时代时,社会也将经历类似的地壳运动。在改变人类基本的生活与思考方式的同时,大数据早已在推动人类信息管理准则的重新定位。然而,不同于印刷革命,我们没有几个世纪的时间去适应,我们也许就只有几年的时间。

大数据时代的到来,也将彻底改变传统管理的模式:

变革1:个人隐私保护,从个人许可到数据使用者承担责任

将责任从民众转移到数据使用者。因为数据使用者比任何人都明白他们想要如何利用数据。他们评估(或请专家评估)如何避免商业机密的泄露。在他们产生价值之后,他们理所当然要对自己的行为负责。

变革2:个人动因与预测风险

在大数据时代,关于工作的概念需要重新定义以维护个人动因的想法:人们选择自我行为的自由意志。简单地说,就是个人可以并应该为他们的行为而非倾向负责。有了大数据,我们就能预测人的行为,而且还很准确,这就诱导我们依据预测的行为而非实际的行为对人们进行评定。

变革3:击碎黑盒子,大数据算法师的崛起

大数据的运作是在一个超出我们正常理解的范围之上的。大数据要求每一个新的人群来扮演这种角色——算法工程师。他们存在有两种方式:一、机构外部算法师。二、内部算法师。他们就犹如公司内部的会计人员和进行鉴证的外部审计师。这些新的专业人员都是计算机科学、数学和统计学领域的专家。他们担当大数据分析和预测的评估专家。同时他们必须保证公正和保密。他们以评估数据源的挑选,分析和预测工具的选取,甚至包括运算法则和模型,以及计算结果的是否合理。一旦出现争议,他们有权考察和分析结果相关的运算法则、统计方法以及数据集是否正确。

变革4:反数据垄断托拉斯

数据之于信息社会就如燃料之于工业革命,是人们进行创新的力量源泉。没有大量鲜活的数据和健全的市场,这些创新就实现不了。随着大数据时代下管理的转变,我们相信,大数据不利的影响会得到控制。然而,随着尚未成熟的大数据产业的不断发展,另一个重要的挑战将会是如何保护极具竞争力的市场。我们必须防止21世界的数据大亨,它相当于19世界垄断美国的铁路、钢铁和电报网络的托拉斯。

结语:

正在发生的未来:

大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全代替。大数据为我们打开了一道门,它提供的不是最终的答案,而只是参考答案,帮助我们是暂时的,而更加美好的方法和答案还在不久的未来。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值