大数据技术概览：从概念到应用-CSDN博客

本文链接：https://blog.csdn.net/weixin_51491731/article/details/111167368

大数据技术概论

大数据的产生
从采用数据库作为数据管理的主要方式开始，人类社会的数据产生方式大致经历了 3 个阶段，而正是数据产生方式的巨大变化才最终导致大数据的产生。
1）运营式系统阶段。
数据库的出现使得数据管理的复杂度大大降低，在实际使用中，数据库大多为运营系统所采用，作为运营系统的数据管理子系统，如超市的销售记录系统、银行的交易记录系统、医院病人的医疗记录等。

人类社会数据量的第一次大的飞跃正是在运营式系统开始广泛使用数据库时开始的。这个阶段的最主要特点是，数据的产生往往伴随着一定的运营活动；而且数据是记录在数据库中的，例如，商店每售出一件产品就会在数据库中产生一条相应的销售记录。这种数据的产生方式是被动的。
2）用户原创内容阶段。
互联网的诞生促使人类社会数据量出现第二次大的飞跃，但是真正的数据爆发产生于 Web 2.0 时代，而 Web 2.0 的最重要标志就是用户原创内容。这类数据近几年一直呈现爆炸性的增长。

主要有以下两个方面的原因。
是以博客、微博和微信为代表的新型社交网络的岀现和快速发展，使得用户产生数据的意愿更加强烈。
是以智能手机、平板电脑为代表的新型移动设备的出现，这些易携带、全天候接入网络的移动设备使得人们在网上发表自己意见的途径更为便捷。这个阶段的数据产生方式是主动的。
3）感知式系统阶段。
人类社会数据量第三次大的飞跃最终导致了大数据的产生，今天我们正处于这个阶段。这次飞跃的根本原因在于感知式系统的广泛使用。

随着技术的发展，人们已经有能力制造极其微小的带有处理功能的传感器，并开始将这些设备广泛地布置于社会的各个角落，通过这些设备来对整个社会的运转进行监控。这些设备会源源不断地产生新数据，这种数据的产生方式是自动的。

简单来说，数据产生经历了被动、主动和自动三个阶段。这些被动、主动和自动的数据共同构成了大数据的数据来源，但其中自动式的数据才是大数据产生的最根本原因。
大数据的作用
大数据虽然孕育于信息通信技术，但它对社会、经济、生活产生的影响绝不限于技术层面。更本质上，它是为我们看待世界提供了一种全新的方法，即决策行为将日益基于数据分析，而不是像过去更多凭借经验和直觉。具体来讲，大数据将有以下作用。
1）对大数据的处理分析正成为新一代信息技术融合应用的结点。
移动互联网、物联网、社交网络、数字家庭、电子商务等是新一代信息技术的应用形态，这些应用不断产生大数据。

云计算为这些海量、多样化的大数据提供存储和运算平台。通过对不同来源数据的管理、处理、分析与优化，将结果反馈到上述应用中，将创造出巨大的经济和社会价值，大数据具有催生社会变革的能量。
2）大数据是信息产业持续高速增长的新引擎。
面向大数据市场的新技术、新产品、新服务、新业态会不断涌现。

在硬件与集成设备领域，大数据将对芯片、存储产业产生重要影响，还将催生出一体化数据存储处理服务器、内存计算等市场。

在软件与服务领域，大数据将引发数据快速处理分析技术、数据挖掘技术和软件产品的发展。
3）大数据利用将成为提高核心竞争力的关键因素。
各行各业的决策正在从“业务驱动”向“数据驱动”转变。

在商业领域，对大数据的分析可以使零售商实时掌握市场动态并迅速做出应对，可以为商家制定更加精准有效的营销策略提供决策支持，可以帮助企业为消费者提供更加及时和个性化的服务。

在医疗领域，可提高诊断准确性和药物有效性。

在公共事业领域，大数据也开始发挥促进经济发展、维护社会稳定等方面的重要作用。
4）大数据时代，科学研究的方法手段将发生重大改变。
例如，抽样调查是社会科学的基本研究方法，在大数据时代，研究人员可通过实时监测、跟踪研究对象在互联网上产生的海量行为数据，进行挖掘分析，揭示出规律性的东西，提出研究结论和对策。
大数据基本概念
一、基本概念

在讲什么是大数据之前，我们首先需要厘清几个基本概念。

1.数据

关于数据的定义，大概没有一个权威版本。为方便，此处使用一个简单的工作定义：数据是可以获取和存储的信息。

直观而言，表达某种客观事实的数值是最容易被人们识别的数据(因为那是“数”)。但实际上，人类的一切语言文字、图形图画、音像记录，所有感官可以察觉的事物，只要能被记下来，能够查询到，就都是数据(data)。

不过数值是所有数据中最容易被处理的一种，许多和数据相关的概念，例如下面的数据可视化和数据分析，最早是立足于数值数据的。

传统意义上的数据一词，尤其是相对于今天的“大数据”的“小数据”,主要指的就是数值数据，甚至在很多情况下专指统计数值数据。这些数值数据用来描述某种客观事物的属性。

2.数据可视化

对应英语的data visulization(或可译为数据展示)，指通过图表将若干数字以直观的方式呈现给读者。比如非常常见的饼图、柱状图、走势图、热点图、K线等等，目前以二维展示为主，不过越来越多的三维图像和动态图也被用来展示数据。

3.数据分析

这一概念狭义上，指统计分析，即通过统计学手段，从数据中精炼对现实的描述。例如：针对以关系型数据库中以table形式存储的数据，按照某些指定的列进行分组，然后计算不同组的均值、方差、分布等。再以可视化的方式讲这些计算结果呈现出来。目前很多文章中提及的数据分析，其实是包括数据可视化的。

4.数据挖掘

这个概念的定义也是众说纷纭，落到实际，主要是在传统统计学的基础上，结合机器学习的算法，对数据进行更深层次的分析，并从中获取一些传统统计学方法无法提供的Insights(比如预测)。

简单而言：针对某个特定问题构建一个数学模型(可以把这个模型想象成一个或多个公式)，其中包含一些具体取值未知的参数。我们将收集到的相关领域的若干数据(这些数据称为训练数据)代入模型，通过运算(运算过程称为训练)，得出那些参数的值。然后再用这个已经确定了参数的模型，去计算一些全新的数据，得出相应结果。这一过程叫做机器学习。

机器学习的算法纷繁复杂，最常用的主要有回归分析、关联规则、分类、聚类、神经网络、决策树等。

二、大数据和大数据分析

大数据首先是数据，其次，它是具备了某些特征的数据。目前公认的特征有四个：Volumne,Velocity,Variety,和Value,简称4V.

1.Volume:大量。就目前技术而言，至少TB级别以下不能成大数据。

2.Velocity:高速。1TB的数据，十分钟处理完，叫大数据，一年处理完，就不能算“大”了。

3.Variety:多样。就内容而言，大数据已经远远不局限数值，文字、图片、语音、图像，一切在网络上可以传输显示的信息，都属于此列。从结构而言，和存储在数据库中的结构化数据不同，当前的大数据主要指半结构化和非结构化的信息，比如机器生成信息(各种日志)、自然语言等。

Value:价值。如果不能从中提取出价值，不能通过挖掘、分析，得到指导业务的insights,那这些数据也就没什么用。不过现在还有另外一种提法：只要是数据就都有用，能不能获得价值，是分析人员的能力问题。

大数据分析，顾名思义，就是将前述的数据可视化、数据分析、数据挖掘等方法作用到大数据之上。

从某种意义上讲，大数据可谓机器学习的福音，很多原有的简单粗糙的机器学习模型，仅仅因为训练数据量级的增加就大幅提高了准确性。还有一些模型则因为准确性随着数据量增加而增加的势头尤其明显，得以脱离默默无闻而被广泛使用。

另一方面，大数据分析对于运算量的需求激增，原有的基于单机的运算技术显然已经不能满足需求，这就催生了一些列新技术。

三、大数据技术

抽象而言，各种大数据技术无外乎分布式存储 + 并行计算。具体体现为各种分布式文件系统和建立在其上的并行运算框架。这些软件程序都部署在多个相互连通、统一管理的物理或虚拟运算节点之上，形成集群(cluster)。因此不妨说，云计算是大数据的基础。

下面介绍几种当前比较流行的大数据技术：

1.Hadoop

Hadoop无疑是当前最知名的大数据技术了。

2003年到2004年间，Google发布了关于GFS、MapReduce和BigTable三篇技术论文(这几篇论文成为了后来云计算、大数据领域发展的重要基石)。当时一位因公司倒闭赋闲在家的程序员Doug Cutting根据前两篇论文，开发出了一个简化的山寨版GFS – HDFS,以及基于其的MapReduce计算框架，这就是Hadoop最初版本。后来Cutting被Yahoo雇佣，得以依赖Yahoo的资源改进Hadoop,并将其贡献给了Apache开源社区。

简单描述Hadoop原理：数据分布式存储，运算程序被发派到各个数据节点进行分别运算(Map)，再将各个节点的运算结果进行合并归一(Reduce)，生成最终结果。相对于动辄TB级别的数据，计算程序一般在KB – MB的量级，这种移动计算不移动数据的设计节约了大量网络带宽和时间，并使得运算过程可以充分并行化。

在其诞生后的近10年里，Hadoop凭借其简单、易用、高效、免费、社区支持丰富等特征成为众多企业云计算、大数据实施的首选。

2.Storm

Hadoop虽好，却有其“死穴”.其一：它的运算模式是批处理。这对于许多有实时性要求的业务就无法做到很好的支持。因此，Twitter推出了他们自己的基于流的运算框架–Storm.不同于Hadoop一次性处理所有数据并得出统一结果的作业(job)，Storm对源源导入的数据流进行持续不断的处理，随时得出增量结果。

3.Spark

Hadoop的另一个致命弱点是：它的所有中间结果都需要进行硬盘存储，I/O消耗巨大，这就使得它很不适合多次迭代的运算。而大多数机器学习算法，恰恰要求大量迭代运算。

2010年开始，UC Berkeley AMP Lab开始研发分布式运算的中间过程全部内存存储的Spark框架，由此在迭代计算上大大提高了效率。也因此成为了Hadoop的强有力竞争者。

4.NoSQL 数据库

NoSQL数据库可以泛指非关系型数据库，不过一般用来指称那些建立在分布式文件系统(例如HDFS)之上，基于key-value对的数据管理系统。

相对于传统的关系型数据库，NoSQL数据库中存储的数据无需主键和严格定义的schema.于是，大量半结构化、非结构化数据可以在未经清洗的情况下直接进行存储。这一点满足了处理大量、高速、多样的大数据的需求。当前比较流行的NoSQL数据库有MongoDB,Redis,Cassandra,HBase等。

NoSQL并不是没有SQL,而是不仅仅有(not only)SQL的意思。为了兼容之前许多运行在关系型数据库上的业务逻辑，有很多在NoSQL数据库上运行SQL的工具涌现出来，最典型的例如Hive和Pig,它们将用户的SQL语句转化成MapReduce作业，在Hadoop上运行。

四、和数据、大数据相关的职位

和数据、数据分析相关的职位有不少，大都不是新生事物。

1.有一个历史悠久的职位叫“统计”.一般的农村生产队都有统计员，工厂也有专门的统计职位。比如一个工厂里，每个车间每天都要上报各种原材料的使用、耗损情况、产品成品数，废品数等。这些数字被汇总给统计人员，统计员会做一个表格，说明某日、月、年的成品率、成品数等等概念。虽然看起来不够in,但实际上他们做的数据收集整理展示的工作，从根本上和现在的数据分析师是同理的。

2.另一个相对摩登一点的职位，叫做BI (business intelligence)。这个职位，其实和传统工厂的统计差别不大，如果说有差别，就是差在数据展示上。BI都被要求使用软件工具对数据进行整理和展示。比如，某大型生产型企业的BI,他的工作是统计该企业各种产品在各个地区的销售信息。他每天从拿到各个销售网点提交的excel表，把其中数据导出到数据库里，进行一些SQL查询，然后用可视化工具将结果生成图形表格提交给业务人员参考。

3.还有两个职位，一个叫做数据分析师(data analyst)，另一个叫数据科学家(data scientist)。这两个职位，在有些机构组织中，职责不同;在另一些地方，职责相同，或相似，但级别不同。对于职责不同的地方，一般数据科学家要使用机器学习的算法，而数据分析师则专注在统计。

目前数据科学家这个词一般都和大数据绑定在一起，包括在美国，似乎一提data scientist就是做大数据的，但是实际上未必，很多有 data scientist 头衔的人，也确实在工作中大量应用机器学习算法，但是，他们处理的并不是大数据，很可能只是几十万，几百万量级的数据库记录。

4.(大)数据工程师(data engineer/big data engineer)。这个职位更偏重于数据本身的处理，即大规模(TB/PB级别)数据的提取、迁移、抽取和清洗。数据工程师也可以进行数据挖掘工作，或者协助数据科学家实现算法。

5.数据质量(data quality)。担任这个职位的，是保证各层级数据完整性和准确性的人员。他们负责制定数据完整性和准确性标准，设计检测方法并实施检测。

上述这些职位，主要指IT产业内的职位，其他还有一些在研究机构或者大公司研究部门进行算法优化和研究的人员，以及另一些相对低端的，手工清洗数据的劳动者(例如：在数据库时代，手工录入数据到数据库的人)，就都不计入此列了。

五、大数据的影响

大数据概念的兴起正在对我们的社会产生多方面的影响：

1.定量分析

因“大数据”而使得人们开始关注“数据”,可谓最首要的影响。尤其对于国内而言，越来越多的决策者开始重视数据的力量，会在决断同时参考各类统计、分析报表，而不再是凭直觉拍脑袋。

2.从必然到相关

相对于传统的小数据统计，大数据更关注与发现事物之间的相关性，而非因果关系。人类历经百万年基于数据贫乏的现状而形成的“因为……所以……”的思维习惯，在大数据时代，是否会向“……有关联……”转变?

3.信息安全

以今日的技术，一个人的个人信息、网页浏览记录、购物记录、对图书影片等内容的偏好，在浏览不同页面时的行为习惯，如此种种，都可以轻易被商家或某些机构获取。在大数据的笼罩之下，每个人都将无所遁形。那么，对于每个人本该拥有的隐私权，该如何保护?

新技术解决了许多之前无法解决的问题，然而，新生事物也带来了新的问题。像所有技术一样，大数据也是一把 “双刃剑”.能否用其利除其弊，有赖于全社会的共同努力。
大数据产生原因
从字面上看，大数据就是数量巨大的数据，或者称为海量数据。实际上，大数据是一个较为抽象的概念，数量巨大只是其中的一个表面的特性。大数据是网络信息时代的客观存在，其产生的意义并不在于掌握庞大的数据量，而在于对这些数据进行专业存储和处理，并从中挖掘和提取所需要的知识和信息。

技术突破来源于实际的产品需求，如果将大数据比作一种产业，那么降低存储成本，提升运行速度和计算速度，以及对数据进行多维度的分析加工，实现并提升数据的价值，这是大数据这种产业实现盈利的关键，也是大数据产生的真正原因。

存储成本的大幅下降

以往存储数据的成本非常高，许多大型的互联网公司各自为政，为了保证数据的存储安全性和传输通畅性，需要进行定期维护和数据清理，机房部署和人力成本昂贵。新型的数据存储服务出现后，衍生了很多新的商业模式，集中建设数据中心，大大降低了单位计算和存储的成本。现在建造网站已经不需要购买服务器，也不需要聘用管理人员，通过大数据云计算的商业模式即可获得资源，而存储成本的下降，也改变了人们对数据的看法，更愿意将久远的历史数据保存下来。有了这些数据的沉淀，人们才会想着如何加以利用，通过时间对比，发现其价值与关联。

运行、计算速度的提升

20世纪90年代，传输一个20MB的文件需要花费约一天的时间，如今仅需数秒即可完成传输。分布式系统框架Hadoop、Spark、Storm，并行运行机制HDFS、MapReduce，为海量数据提供了计算的便利性，大大提升了对原始数据进行清洗、挖掘、分析的运行效率，使得数据的价值得到进一步提升。

脑力劳动的解放

今天我们看到的AlphaGo的获胜，以及Siri、微软小冰等智能对话，其背后都有大数据的支撑。也就是说，大数据让计算机变得更加智慧，大数据为计算机灌输了人类的思想，大数据带来了智慧的价值，从而有效解放了人类的脑力劳动。
大数据概念的提出
1887–1890年
美国统计学家赫尔曼·霍尔瑞斯为了统计1890年的人口普查数据发明了一台电动器来读取卡片上的洞数,该设备让美国用一年时间就完成了原本耗时8年的人口普查活动，由此在全球范围内引发了数据处理的新纪元。

1935–1937年
美国总统富兰克林·罗斯福利用社会保障法开展了美国政府最雄心勃勃的一项数据收集项目，IBM最终赢得竞标，即需要整理美国的2600万个员工和300万个雇主的记录。共和党总统候选人阿尔夫兰登scoffs嘲笑地说，“要整理如此繁多的职工档案，还必须而调用大规模的现场调查人员去核实那些信息不完整的人员记录。”

1943年
一家英国工厂为了破译二战期间的纳粹密码,让工程师开发了系列开创性的能进行大规模数据处理的机器,并使用了第一台可编程的电子计算机进行运算。该计算机被命名为“巨人”，为了找出拦截信息中的潜在模式，它以每秒钟5000字符的速度读取纸卡——将原本需要耗费数周时间才能完成的工作量压缩到了几个小时。破译德国部队前方阵地的信息以后，帮助盟军成功登陆了诺曼底。

1997年
美国宇航局研究员迈克尔·考克斯和大卫·埃尔斯沃斯首次使用“大数据”这一术语来描述20世纪90年代的挑战：超级计算机生成大量的信息——在考克斯和埃尔斯沃斯按案例中,模拟飞机周围的气流——是不能被处理和可视化的。数据集通常之大,超出了主存储器、本地磁盘，甚至远程磁盘的承载能力。”他们称之为“大数据问题。”

2002年
在9/11袭击后,美国政府为阻止恐怖主义已经涉足大规模数据挖掘。前国家安全顾问约翰·波因德克斯特领导国防部整合现有政府的数据集，组建一个用于筛选通信、犯罪、教育、金融、医疗和旅行等记录来识别可疑人的大数据库。一年后国会因担忧公民自由权而停止了这一项目。

2004年
9/11委员会呼吁反恐机构应统一组建“一个基于网络的信息共享系统”，以便能快处理应接不暇的数据。到2010年，美国国家安全局的30000名员工将拦截和存储17亿年电子邮件、电话和其它通讯日报。与此同时,零售商积累关于客户购物和个人习惯的大量数据，沃尔玛自吹已拥有一个容量为460字节的缓存器——比当时互联网上的数据量还要多一倍。

2007–2008年
随着社交网络的激增，技术博客和专业人士为“大数据” 概念注入新的生机。“当前世界范围内已有的一些其他工具将被大量数据和应用算法所取代”。《连线》的克里斯·安德森认为当时处于一个“理论终结时代”。一些政府机构和美国的顶尖计算机科学家声称,“应该深入参与大数据计算的开发和部署工作,因为它将直接有利于许多任务的实现。”

2009年1月
印度政府建立印度唯一的身份识别管理局，对12亿人的指纹、照片和虹膜进行扫描,并为每人分配12位的数字ID号码，将数据汇集到世界最大的生物识别数据库中。官员们说它将会起到提高政府的服务效率和减少腐败行为的作用，但批评者担心政府会针对个别人进行剖面分析并与分享这些人的私密生活细节。

2009年5月
大数据或成反恐分析利器
美国总统巴拉克·奥巴马政府推出data.gov网站作为政府开放数据计划的部分举措。该网站的超过4.45万量数据集被用于保证一些网站和智能手机应用程序来跟踪从航班到产品召回再到特定区域内失业率的信息,这一行动激发了从肯尼亚到英国范围内的政府们相继推出类似举措。

2009年7月
应对全球金融危机,联合国秘书长潘基文承诺创建警报系统，抓住“实时数据带给贫穷国家经济危机的影响” 。联合国全球脉冲项目已研究了对如何利用手机和社交网站的数据源来分析预测从螺旋价格到疾病爆发之类的问题。

2011年2月
扫描2亿年的页面信息,或4兆兆字节磁盘存储,只需几秒即可完成。IBM的沃森计算机系统在智力竞赛节目《危险边缘》中打败了两名人类挑战者。后来纽约时报配音这一刻为一个“大数据计算的胜利。”

2012年3月
美国政府报告要求每个联邦机构都要有一个“大数据”的策略，作为回应，奥巴马政府宣布一项耗资2亿美元的大数据研究与发展项目。国家卫生研究院将一套人类基因组项目的数据集存放在亚马逊的计算机云内,同时国防部也承诺要开发出可“从经验中进行学习”的“自主式”防御系统。中央情报局局长戴维·彼得雷乌斯将军在发帖讨论阿拉伯之春机构通过云计算收集和分析全球社会媒体信息之事时，不禁惊叹我们已经被自卸卡车倒进了“‘数字尘土”中。

2012年7月
美国国务卿希拉里·克林顿宣布了一个名为“数据2X”的公私合营企业用来收集统计世界各地的妇女和女童在经济、政治和社会地位方面的信息。“数据不只是测量过程——它能给予我们启发,”她解释说。“一旦人们开始对某个问题实施测量时，就更倾向于采取行动来解决它们，因为没有人愿意排到名单的最低端去。”让大数据开始竞赛吧
云计算与大数据的关系
作者：青牛
链接：https://www.zhihu.com/question/31912565/answer/1055674944
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

大数据和云计算这两种技术本身都是有价值的。此外，许多企业的目标是将两种技术结合起来以获取更多的商业利益。两种技术都旨在提高公司的收入，同时降低投资成本。尽管Cloud管理本地软件，但大数据有助于业务决策。让我们从这两种技术的基本概述开始！大数据与云计算大数据处理大量的结构化，半结构化或非结构化数据，以进行存储和处理以进行数据分析。大数据有五个方面，通过5V来描述数量–数据量种类–不同类型的数据速度–系统中的数据流率价值 –基于其中包含的信息的数据价值准确性 –数据保密性和可用性云计算以按需付费的模式向用户提供服务。云提供商提供三种主要服务，这些服务概述如下：基础架构即服务（IAAS）在这里，服务提供商将提供整个基础架构以及与维护相关的任务。平台即服务（PAAS）在此服务中，Cloud提供程序提供了诸如对象存储，运行时，排队，数据库等资源。但是，与配置和实现相关的任务的责任取决于使用者。软件即服务（SAAS）此服务是最便捷的服务，它提供所有必要的设置和基础结构，并为平台和基础结构提供IaaS。大数据与云计算的关系模型云计算在大数据中的作用大数据和云计算的关系可以根据服务类型进行分类：IAAS在公共云中IaaS是一种经济高效的解决方案，利用此云服务，大数据服务使人们能够访问无限的存储和计算能力。对于云提供商承担所有管理基础硬件费用的企业而言，这是一种非常经济高效的解决方案。私有云中的PAASPaaS供应商将大数据技术纳入其提供的服务。因此，它们消除了处理管理单个软件和硬件元素的复杂性的需求，而这在处理TB级数据时是一个真正的问题。混合云中的SAAS如今，分析社交媒体数据已成为公司进行业务分析的基本参数。在这种情况下，SaaS供应商提供了进行分析的出色平台。大数据与云计算有何关系？因此，从以上描述中，我们可以看到，Cloud通过可伸缩且灵活的自助服务应用程序抽象了挑战和复杂性，从而启用了“即服务”模式。从最终用户提取海量数据的分布式处理时，大数据需求是相同的。云中的大数据分析有多个好处。改进分析随着云技术的进步，大数据分析变得更加完善，从而带来了更好的结果。因此，公司倾向于在云中执行大数据分析。此外，云有助于整合来自众多来源的数据。简化的基础架构大数据分析是基础架构上一项艰巨的艰巨工作，因为数据量大，速度和传统基础架构通常无法跟上的类型。由于云计算提供了灵活的基础架构，我们可以根据当时的需求进行扩展，因此管理工作负载很容易。降低成本大数据和云技术都通过减少所有权来为组织创造价值。云的按用户付费模型将CAPEX转换为OPEX。另一方面，Apache降低了大数据的许可成本，该成本应该花费数百万美元来构建和购买。云使客户无需大规模的大数据资源即可进行大数据处理。因此，大数据和云技术都在降低企业成本并为企业带来价值。安全与隐私数据安全性和隐私性是处理企业数据时的两个主要问题。此外，当您的应用程序由于其开放的环境和有限的用户控制安全性而托管在Cloud平台上时，这成为主要的问题。另一方面，像Hadoop这样的大数据解决方案是一个开源应用程序，它使用了大量的第三方服务和基础架构。因此，如今，系统集成商引入了具有弹性和可扩展性的私有云解决方案。此外，它还利用了可扩展的分布式处理。除此之外，云数据是在通常称为云存储服务器的中央位置存储和处理的。服务提供商和客户将与之一起签署服务水平协议（SLA），以获得他们之间的信任。如果需要，提供商还可以利用所需的高级安全控制级别。这可确保涵盖以下问题的云计算中大数据的安全性：保护大数据免受高级威胁。云服务提供商如何维护存储和数据。有一些与服务级别协议相关的规则可以保护数据容量可扩展性安全隐私数据存储的可用性和数据增长另一方面，在许多组织中，大数据分析被用来检测和预防高级威胁和恶意黑客。虚拟化基础架构在支持任何应用程序中都起着至关重要的作用。虚拟化技术是大数据的理想平台。像Hadoop这样的虚拟化大数据应用程序具有多种优势，这些优势在物理基础架构上是无法访问的，但它简化了大数据管理。大数据和云计算指出了各种技术和趋势的融合，这使IT基础架构和相关应用程序更加动态，更具消耗性和模块化。因此，大数据和云计算项目严重依赖虚拟化

大数据的4v特征

Volume（大量）

截至目前。人类生产的所有印刷材料的数量是200PB，而历史上全人类总共说过得话的数据量大约是5EB。当前，典型个人计算机硬盘的容量为TB量级，而一些大企业的数据量已经接近EB量级。
Velocity（高速）

这是大数据区于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告，预计到2020年，全球数据使用量将达到35.2ZB。在如此海量的数据面前，处理数据的效率就是企业的生命。
Variety（多样）

这种典型的多样性也让数据呗分为结构化数据和非结构化数据。相对于以往便储存的以数据库/文本为主的结构变化数据，非结构化数据越来越多，包括网络日志、音频、视频、图片、地理位置信息等。这些多类型的数据对数据的处理能力提出了更高要求。
Value（低价值密度）

价值密度的高低与数据总量的大小成反比。比如，在一天监控视频中，我们只关心宋宋老师在床上健身那一分钟，如何快速对有价值数据“提纯”成为目前大数据背景下待解决的难题。

大数据的主要应用及行业推动力量

大数据的主要应用
1.了解和定位客户

这是大数据目前最广为人知的应用领域。很多企业热衷于社交媒体数据、浏览器日志、文本挖掘等各类数据集，通过大数据技术创建预测模型，从而更全面地了解客户以及他们的行为、喜好。

利用大数据，美国零售商Target公司甚至能推测出客户何时会有Baby;电信公司可以更好地预测客户流失;沃尔玛可以更准确地预测产品销售情况;汽车保险公司能更真实地了解客户实际驾驶情况。

滑雪场利用大数据来追踪和锁定客户。如果你是一名狂热的滑雪者，想象一下，你会收到最喜欢的度假胜地的邀请;或者收到定制化服务的短信提醒;或者告知你最合适的滑行线路。。。。。。同时提供互动平台(网站、手机APP)记录每天的数据——多少次滑坡，多少次翻越等等，在社交媒体上分享这些信息，与家人和朋友相互评比和竞争。

除此之外，政府竞选活动也引入了大数据分析技术。一些人认为，奥巴马在2012年总统大选中获胜，归功于他们团队的大数据分析能力更加出众。

2.了解和优化业务流程

大数据也越来越多地应用于优化业务流程，比如供应链或配送路径优化。通过定位和识别系统来跟踪货物或运输车辆，并根据实时交通路况数据优化运输路线。

人力资源业务流程也在使用大数据进行优化。Sociometric Solutions公司通过在员工工牌里植入传感器，检测其工作场所及社交活动——员工在哪些工作场所走动，与谁交谈，甚至交流时的语气如何。美国银行在使用中发现呼叫中心表现最好的员工——他们制定了小组轮流休息制度，平均业绩提高了23%。

如果在手机、钥匙、眼镜等随身物品上粘贴RFID标签，万一不小心丢失就能迅速定位它们。假想一下未来可能创造出贴在任何东西上的智能标签。它们能告诉你的不仅是物体在哪里，还可以反馈温度，湿度，运动状态等等。这将打开一个全新的大数据时代，“大数据”领域寻求共性的信息和模式，那么孕育其中的“小数据”着重关注单个产品。

3.提供个性化服务

大数据不仅适用于公司和政府，也适用于我们每个人，比如从智能手表或智能手环等可穿戴设备采集的数据中获益。Jawbone的智能手环可以分析人们的卡路里消耗、活动量和睡眠质量等。Jawbone公司已经能够收集长达60年的睡眠数据，从中分析出一些独到的见解反馈给每个用户。从中受益的还有网络平台“寻找真爱”，大多数婚恋网站都使用大数据分析工具和算法为用户匹配最合适的对象。
4.改善医疗保健和公共卫生

大数据分析的能力可以在几分钟内解码整个DNA序列，有助于我们找到新的治疗方法，更好地理解和预测疾病模式。试想一下，当来自所有智能手表等可穿戴设备的数据，都可以应用于数百万人及其各种疾病时，未来的临床试验将不再局限于小样本，而是包括所有人!

苹果公司的一款健康APP ResearchKit有效将手机变成医学研究设备。通过收集用户的相关数据，可以追踪你一天走了多少步，或者提示你化疗后感觉如何，帕金森病进展如何等问题。研究人员希望这一过程变得更容易、更自动化，吸引更多的参与者，并提高数据的准确度。

大数据技术也开始用于监测早产儿和患病婴儿的身体状况。通过记录和分析每个婴儿的每一次心跳和呼吸模式，提前24小时预测出身体感染的症状，从而及早干预，拯救那些脆弱的随时可能生命危险的婴儿。

更重要的是，大数据分析有助于我们监测和预测流行性或传染性疾病的暴发时期，可以将医疗记录的数据与有些社交媒体的数据结合起来分析。比如，谷歌基于搜索流量预测流感爆发，尽管该预测模型在2014年并未奏效——因为你搜索“流感症状”并不意味着真正生病了，但是这种大数据分析的影响力越来越为人所知。

5.提高体育运动技能

如今大多数顶尖的体育赛事都采用了大数据分析技术。用于网球比赛的IBM SlamTracker工具，通过视频分析跟踪足球落点或者棒球比赛中每个球员的表现。许多优秀的运动队也在训练之外跟踪运动员的营养和睡眠情况。NFL开发了专门的应用平台，帮助所有球队根据球场上的草地状况、天气状况、以及学习期间球员的个人表现做出最佳决策，以减少球员不必要的受伤。

还有一件非常酷的事情是智能瑜伽垫：嵌入在瑜伽垫中的传感器能对你的姿势进行反馈，为你的练习打分，甚至指导你在家如何练习。

例如：

纵观医疗行业的发展历程可以得知：在经济发展相对落后的年代，专业的医疗机构较少、医疗资源分配不均的问题较为严重，重病患者因得不到及时治疗而死亡的事件时有发生。近几年，随着经济建设的稳步开展，我国医疗卫生行业进入了快速发展时期，大数据、云计算等技术也逐步被应用于多个医疗场景。

目前，大数据技术已经被用于为患者建立电子病历档案、防控慢性疾病、临床医学诊断等多个医疗场景。大数据技术的运用，在一定程度上改变了医疗信息采集、运用的方式，并为医务工作者针对不同患者的实际情况制定手术治疗方案提供了相应的参考依据。

例如，基于医疗资源共享平台，医生可以及时查看患者在不同时间、不同地点的看病就诊记录，以此全面分析患者的健康状况。这样做，不仅能有效避免重复检查、减少医疗成本，还能降低误诊发生的几率。
大数据在循证医学领域具备多元价值

实际上，随着大数据在医疗行业应用程度的不断深入，其在循证医学领域的应用价值也逐步显现出来。从总体来看，大数据在循证医学领域的应用价值主要体现于临床操作、药物研发等医疗环节中。借助大数据所具备的技术优势，传统医学行业在发展中存在的一系列难题得到了进一步解决。

如今，大数据在临床操作方面所具有的价值，已经得到了诸多研究人员的认可。借助大数据的技术优势，治疗方案的制定变得更加科学合理，治疗效果也得到了进一步提升。与此同时，医务工作者通过对远程监控系统产生的数据进行综合分析，可以及时采取措施做好疾病防控工作，进而避免大规模恶性疾病的爆发。

此外，医务工作者通过全面分析患者的各项医疗数据，对比多种干预措施的有效性，可以找到针对特定病人的较适宜的治疗途径，并降低过度治疗(比如避免那些副作用比疗效明显的治疗方式)，以及治疗不足等情况出现的可能性。

大数据的关键技术

Part 1.大数据采集

数据采集是大数据生命周期的第一个环节，它通过RFID射频数据、传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。由于可能有成千上万的用户同时进行并发访问和操作，因此，必须采用专门针对大数据的采集方法，其主要包括以下三种：

A.数据库采集

一些企业会使用传统的关系型数据库MySQL和Oracle等来存储数据。谈到比较多的工具有Sqoop和结构化数据库间的ETL工具，当然当前对于开源的Kettle和Talend本身也集成了大数据集成内容，可以实现和hdfs，hbase和主流Nosql数据库之间的数据同步和集成。

B.网络数据采集

网络数据采集主要是借助网络爬虫或网站公开API等方式，从网站上获取数据信息的过程。通过这种途径可将网络上非结构化数据、半结构化数据从网页中提取出来，并以结构化的方式将其存储为统一的本地数据文件。

C.文件采集

对于文件的采集，谈的比较多的还是flume进行实时的文件采集和处理，当然对于ELK（ElasTIcsearch、Logstash、Kibana三者的组合）虽然是处理日志，但是也有基于模板配置的完整增量实时文件采集实现。如果是仅仅是做日志的采集和分析，那么用ELK解决方案就完全够用的。

Part 2.大数据预处理

数据的世界是庞大而复杂的，也会有残缺的，有虚假的，有过时的。想要获得高质量的分析挖掘结果，就必须在数据准备阶段提高数据的质量。大数据预处理可以对采集到的原始数据进行清洗、填补、平滑、合并、规格化以及检查一致性等，将那些杂乱无章的数据转化为相对单一且便于处理的构型，为后期的数据分析奠定基础。数据预处理主要包括：数据清理、数据集成、数据转换以及数据规约四大部分。

A.数据清理

数据清理主要包含遗漏值处理（缺少感兴趣的属性）、噪音数据处理（数据中存在着错误、或偏离期望值的数据）、不一致数据处理。主要的清洗工具是ETL（ExtracTIon/TransformaTIon/Loading）和Potter’s Wheel。

遗漏数据可用全局常量、属性均值、可能值填充或者直接忽略该数据等方法处理;噪音数据可用分箱（对原始数据进行分组，然后对每一组内的数据进行平滑处理）、聚类、计算机人工检查和回归等方法去除噪音;对于不一致数据则可进行手动更正。

B.数据集成

数据集成是指将多个数据源中的数据合并存放到一个一致的数据存储库中。这一过程着重要解决三个问题：模式匹配、数据冗余、数据值冲突检测与处理。

来自多个数据集合的数据会因为命名的差异导致对应的实体名称不同，通常涉及实体识别需要利用元数据来进行区分，对来源不同的实体进行匹配。数据冗余可能来源于数据属性命名的不一致，在解决过程中对于数值属性可以利用皮尔逊积矩Ra，b来衡量，绝对值越大表明两者之间相关性越强。数据值冲突问题，主要表现为来源不同的统一实体具有不同的数据值。

C.数据变换

数据转换就是处理抽取上来的数据中存在的不一致的过程。数据转换一般包括两类：

第一类，数据名称及格式的统一，即数据粒度转换、商务规则计算以及统一的命名、数据格式、计量单位等;第二类，数据仓库中存在源数据库中可能不存在的数据，因此需要进行字段的组合、分割或计算。数据转换实际上还包含了数据清洗的工作，需要根据业务规则对异常数据进行清洗，保证后续分析结果的准确性。

D. 数据规约

数据归约是指在尽可能保持数据原貌的前提下，最大限度地精简数据量，主要包括：数据方聚集、维规约、数据压缩、数值规约和概念分层等。数据规约技术可以用来得到数据集的规约表示，使得数据集变小，但同时仍然近于保持原数据的完整性。也就是说，在规约后的数据集上进行挖掘，依然能够得到与使用原数据集近乎相同的分析结果。

Part 3.大数据存储

大数据存储与管理要用存储器把采集到的数据存储起来，建立相应的数据库，以便管理和调用。大数据存储技术路线最典型的共有三种：

A. MPP架构的新型数据库集群

采用MPP架构的新型数据库集群，重点面向行业大数据，采用Shared Nothing架构，通过列存储、粗粒度索引等多项大数据处理技术，再结合MPP架构高效的分布式计算模式，完成对分析类应用的支撑，运行环境多为低成本 PC Server，具有高性能和高扩展性的特点，在企业分析类应用领域获得极其广泛的应用。这类MPP产品可以有效支撑PB级别的结构化数据分析，这是传统数据库技术无法胜任的。对于企业新一代的数据仓库和结构化数据分析，目前最佳选择是MPP数据库。

B. 基于Hadoop的技术扩展和封装

基于Hadoop的技术扩展和封装，围绕Hadoop衍生出相关的大数据技术，应对传统关系型数据库较难处理的数据和场景，例如针对非结构化数据的存储和计算等，充分利用Hadoop开源的优势，伴随相关技术的不断进步，其应用场景也将逐步扩大，目前最为典型的应用场景就是通过扩展和封装 Hadoop来实现对互联网大数据存储、分析的支撑。这里面有几十种NoSQL技术，也在进一步的细分。对于非结构、半结构化数据处理、复杂的ETL流程、复杂的数据挖掘和计算模型，Hadoop平台更擅长。

C. 大数据一体机

这是一种专为大数据的分析处理而设计的软、硬件结合的产品，由一组集成的服务器、存储设备、操作系统、数据库管理系统以及为数据查询、处理、分析用途而预先安装及优化的软件组成，高性能大数据一体机具有良好的稳定性和纵向扩展性。

Part 4.大数据分析挖掘

数据的分析与挖掘主要目的是把隐藏在一大批看来杂乱无章的数据中的信息集中起来，进行萃取、提炼，以找出潜在有用的信息和所研究对象的内在规律的过程。主要从可视化分析、数据挖掘算法、预测性分析、语义引擎以及数据质量和数据管理五大方面进行着重分析。

A. 可视化分析

数据可视化主要是借助于图形化手段，清晰有效地传达与沟通信息。主要应用于海量数据关联分析，由于所涉及到的信息比较分散、数据结构有可能不统一，借助功能强大的可视化数据分析平台，可辅助人工操作将数据进行关联分析，并做出完整的分析图表，简单明了、清晰直观，更易于接受。

B. 数据挖掘算法

数据挖掘算法是根据数据创建数据挖掘模型的一组试探法和计算。为了创建该模型，算法将首先分析用户提供的数据，针对特定类型的模式和趋势进行查找。并使用分析结果定义用于创建挖掘模型的最佳参数，将这些参数应用于整个数据集，以便提取可行模式和详细统计信息。

大数据分析的理论核心就是数据挖掘算法，数据挖掘的算法多种多样，不同的算法基于不同的数据类型和格式会呈现出数据所具备的不同特点。各类统计方法都能深入数据内部，挖掘出数据的价值。

C. 预测性分析

大数据分析最重要的应用领域之一就是预测性分析，预测性分析结合了多种高级分析功能，包括特别统计分析、预测建模、数据挖掘、文本分析、实体分析、优化、实时评分、机器学习等，从而对未来，或其他不确定的事件进行预测。

从纷繁的数据中挖掘出其特点，可以帮助我们了解目前状况以及确定下一步的行动方案，从依靠猜测进行决策转变为依靠预测进行决策。它可帮助分析用户的结构化和非结构化数据中的趋势、模式和关系，运用这些指标来洞察预测将来事件，并作出相应的措施。

D. 语义引擎

语义引擎是是把已有的数据加上语义，可以把它想象成在现有结构化或者非结构化的数据库上的一个语义叠加层。它语义技术最直接的应用，可以将人们从繁琐的搜索条目中解放出来，让用户更快、更准确、更全面地获得所需信息，提高用户的互联网体验。

E. 数据质量管理

是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题，进行识别、度量、监控、预警等一系列管理活动，并通过改善和提高组织的管理水平使得数据质量获得进一步提高。

对大数据进行有效分析的前提是必须要保证数据的质量，高质量的数据和有效的数据管理无论是在学术研究还是在商业应用领域都极其重要，各个领域都需要保证分析结果的真实性和价值性。

典型的大数据计算构架

数据分析工作虽然隐藏在业务系统背后，但是具有非常重要的作用，数据分析的结果对决策、业务发展有着举足轻重的作用。随着大数据技术的发展，数据挖掘、数据探索等专有名词曝光度越来越高，但是在类似于Hadoop系列的大数据分析系统大行其道之前，数据分析工作已经经历了长足的发展，尤其是以BI系统为主的数据分析，已经有了非常成熟和稳定的技术方案和生态系统，对于BI系统来说，大概的架构图如下：

可以看到在BI系统里面，核心的模块是Cube，Cube是一个更高层的业务模型抽象，在Cube之上可以进行多种操作，例如上钻、下钻、切片等操作。大部分BI系统都基于关系型数据库，关系型数据库使用SQL语句进行操作，但是SQL在多维操作和分析的表示能力上相对较弱，所以Cube有自己独有的查询语言MDX，MDX表达式具有更强的多维表现能力，所以以Cube为核心的分析系统基本占据着数据统计分析的半壁江山，大多数的数据库服务厂商直接提供了BI套装软件服务，轻易便可搭建出一套Olap分析系统。不过BI的问题也随着时间的推移逐渐显露出来：

BI系统更多的以分析业务数据产生的密度高、价值高的结构化数据为主，对于非结构化和半结构化数据的处理非常乏力，例如图片，文本，音频的存储，分析。
由于数据仓库为结构化存储，在数据从其他系统进入数据仓库这个东西，我们通常叫做ETL过程，ETL动作和业务进行了强绑定，通常需要一个专门的ETL团队去和业务做衔接，决定如何进行数据的清洗和转换。
随着异构数据源的增加，例如如果存在视频，文本，图片等数据源，要解析数据内容进入数据仓库，则需要非常复杂等ETL程序，从而导致ETL变得过于庞大和臃肿。
当数据量过大的时候，性能会成为瓶颈，在TB/PB级别的数据量上表现出明显的吃力。
数据库的范式等约束规则，着力于解决数据冗余的问题，是为了保障数据的一致性，但是对于数据仓库来说，我们并不需要对数据做修改和一致性的保障，原则上来说数据仓库的原始数据都是只读的，所以这些约束反而会成为影响性能的因素。
ETL动作对数据的预先假设和处理，导致机器学习部分获取到的数据为假设后的数据，因此效果不理想。例如如果需要使用数据仓库进行异常数据的挖掘，则在数据入库经过ETL的时候就需要明确定义需要提取的特征数据，否则无法结构化入库，然而大多数情况是需要基于异构数据才能提取出特征。
在一系列的问题下，以Hadoop体系为首的大数据分析平台逐渐表现出优异性，围绕Hadoop体系的生态圈也不断的变大，对于Hadoop系统来说，从根本上解决了传统数据仓库的瓶颈的问题，但是也带来一系列的问题：

从数据仓库升级到大数据架构，是不具备平滑演进的，基本等于推翻重做。
大数据下的分布式存储强调数据的只读性质，所以类似于Hive，HDFS这些存储方式都不支持update，HDFS的write操作也不支持并行，这些特性导致其具有一定的局限性。
基于大数据架构的数据分析平台侧重于从以下几个维度去解决传统数据仓库做数据分析面临的瓶颈：

分布式计算：分布式计算的思路是让多个节点并行计算，并且强调数据本地性，尽可能的减少数据的传输，例如Spark通过RDD的形式来表现数据的计算逻辑，可以在RDD上做一系列的优化，来减少数据的传输。
分布式存储：所谓的分布式存储，指的是将一个大文件拆成N份，每一份独立的放到一台机器上，这里就涉及到文件的副本，分片，以及管理等操作，分布式存储主要优化的动作都在这一块。
检索和存储的结合：在早期的大数据组件中，存储和计算相对比较单一，但是目前更多的方向是在存储上做更多的手脚，让查询和计算更加高效，对于计算来说高效不外乎就是查找数据快，读取数据快，所以目前的存储不单单的存储数据内容，同时会添加很多元信息，例如索引信息。像类似于parquet和carbondata都是这样的思想。
总的来说，目前围绕Hadoop体系的大数据架构大概有以下几种：

传统大数据架构

之所以叫传统大数据架构，是因为其定位是为了解决传统BI的问题，简单来说，数据分析的业务没有发生任何变化，但是因为数据量、性能等问题导致系统无法正常使用，需要进行升级改造，那么此类架构便是为了解决这个问题。可以看到，其依然保留了ETL的动作，将数据经过ETL动作进入数据存储。

优点：简单，易懂，对于BI系统来说，基本思想没有发生变化，变化的仅仅是技术选型，用大数据架构替换掉BI的组件。

缺点：对于大数据来说，没有BI下如此完备的Cube架构，虽然目前有kylin，但是kylin的局限性非常明显，远远没有BI下的Cube的灵活度和稳定度，因此对业务支撑的灵活度不够，所以对于存在大量报表，或者复杂的钻取的场景，需要太多的手工定制化，同时该架构依旧以批处理为主，缺乏实时的支撑。

适用场景：数据分析需求依旧以BI场景为主，但是因为数据量、性能等问题无法满足日常使用。

流式架构

在传统大数据架构的基础上，流式架构非常激进，直接拔掉了批处理，数据全程以流的形式处理，所以在数据接入端没有了ETL，转而替换为数据通道。经过流处理加工后的数据，以消息的形式直接推送给了消费者。虽然有一个存储部分，但是该存储更多的以窗口的形式进行存储，所以该存储并非发生在数据湖，而是在外围系统。

优点：没有臃肿的ETL过程，数据的实效性非常高。

缺点：对于流式架构来说，不存在批处理，因此对于数据的重播和历史统计无法很好的支撑。对于离线分析仅仅支撑窗口之内的分析。

适用场景：预警，监控，对数据有有效期要求的情况。

Lambda架构

Lambda架构算是大数据系统里面举足轻重的架构，大多数架构基本都是Lambda架构或者基于其变种的架构。Lambda的数据通道分为两条分支：实时流和离线。实时流依照流式架构，保障了其实时性，而离线则以批处理方式为主，保障了最终一致性。什么意思呢？流式通道处理为保障实效性更多的以增量计算为主辅助参考，而批处理层则对数据进行全量运算，保障其最终的一致性，因此Lambda最外层有一个实时层和离线层合并的动作，此动作是Lambda里非常重要的一个动作，大概的合并思路如下：

优点：既有实时又有离线，对于数据分析场景涵盖的非常到位。

缺点：离线层和实时流虽然面临的场景不相同，但是其内部处理的逻辑却是相同，因此有大量荣誉和重复的模块存在。

适用场景：同时存在实时和离线需求的情况。

Kappa架构

Kappa架构在Lambda 的基础上进行了优化，将实时和流部分进行了合并，将数据通道以消息队列进行替代。因此对于Kappa架构来说，依旧以流处理为主，但是数据却在数据湖层面进行了存储，当需要进行离线分析或者再次计算的时候，则将数据湖的数据再次经过消息队列重播一次则可。

优点：Kappa架构解决了Lambda架构里面的冗余部分，以数据可重播的超凡脱俗的思想进行了设计，整个架构非常简洁。

缺点：虽然Kappa架构看起来简洁，但是施难度相对较高，尤其是对于数据重播部分。

适用场景：和Lambda类似，改架构是针对Lambda的优化。

Unifield架构

以上的种种架构都围绕海量数据处理为主，Unifield架构则更激进，将机器学习和数据处理揉为一体，从核心上来说，Unifield依旧以Lambda为主，不过对其进行了改造，在流处理层新增了机器学习层。可以看到数据在经过数据通道进入数据湖后，新增了模型训练部分，并且将其在流式层进行使用。同时流式层不单使用模型，也包含着对模型的持续训练。

优点：Unifield架构提供了一套数据分析和机器学习结合的架构方案，非常好的解决了机器学习如何与数据平台进行结合的问题。

缺点：Unifield架构实施复杂度更高，对于机器学习架构来说，从软件包到硬件部署都和数据分析平台有着非常大的差别，因此在实施过程中的难度系数更高。

适用场景：有着大量数据需要分析，同时对机器学习方便又有着非常大的需求或者有规划。

总结

以上几种架构为目前数据处理领域使用比较多的几种架构，当然还有非常多其他架构，不过其思想都会或多或少的类似。数据领域和机器学习领域会持续发展，以上几种思想或许终究也会变得过时。