大数据 Big Data 基本概念

引言

当前工作项目有接触到大数据 Big Data 技术,所以花点时间来梳理一下大数据相关基本概念。

信息化浪潮发展历史

首先我们来了解一下人类信息化浪潮的发展历史,这些信息化浪潮的发展史体现了信息技术不断创新和发展的历程,每个阶段都有不同的标志性特点、解决的主要问题以及代表性企业的贡献。这些企业在各自阶段都发挥了关键作用,并推动了信息化浪潮的不断演进。

信息化浪潮发生时间标志解决问题代表企业
第一次浪潮,计算机时代1950年代 - 1970年代计算机的发明和广泛应用大规模科学计算和军事应用IBM(国际商用机器公司)
第二次浪潮,个人计算机时代1980年代 - 1990年代个人计算机的普及将计算机带入家庭和办公场所Apple(苹果公司)、Microsoft(微软公司),Intel, AMD, IBM, 联想,戴尔, 惠普等
第三次浪潮,互联网时代1990年代 - 2000年代互联网的普及和万维网的发展信息获取和共享的便捷化Google(谷歌公司)、Amazon(亚马逊公司),雅虎,阿里巴巴,百度,腾讯等
第四次浪潮,移动互联网和智能设备时代2000年代末至今智能手机和移动互联网的兴起随时随地访问互联网和各种应用Apple(苹果公司)、Google(谷歌公司),以及一批新的市场标杆企业
第四次浪潮,大数据和云计算时代2010年代至今大数据和云计算技术的发展大规模数据处理和存储Amazon Web Services(AWS)、Microsoft Azure
第四次浪潮,人工智能时代2010年代至今人工智能和机器学习的进步计算机模仿人类智能,实现自主学习和决策DeepMind、OpenAI,以及一批新的市场标杆企业
第四次浪潮,物联网时代2010年代至今物联网技术的发展设备之间的通信和数据交换General Electric(通用电气公司)、Siemens(西门子公司),以及一批新的市场标杆企业

Big Data 数据类型

数据发展的三个阶段:

阶段特点应用
第一阶段运营式系统阶段企业零售系统数据库
第二阶段用户原创内容阶段微博,微信
第三阶段感知式系统阶段物联网 LoT(Internet of Things)底层感知层,如 RFID, 摄像头,传感器

第四次信息化浪潮,是信息爆炸的时代,大数据中的数据类型和分布情况各有不同,因为大数据通常包含多样化的数据来源和格式。以下是一些常见的大数据数据类型和它们的分布情况:

数据类型特点应用
结构化数据结构化数据是具有明确定义模式的数据,通常以表格形式存储,例如关系数据库中的数据。这种数据在大数据中仍然占有很大比例,包括各种企业应用、交易记录、传感器数据等。
半结构化数据半结构化数据是有一定结构,但不适合传统关系型数据库的数据。常见的半结构化数据格式包括 JSON、XML 等这些数据在大数据中广泛存在,例如 Web 日志、API 数据等。
非结构化数据非结构化数据是没有固定模式或格式的数据,例如文本、图像、音频、视频等。这些数据形式多样,不易直接处理,但在大数据中也占据了重要地位,如社交媒体内容、文档、多媒体数据等。
时序数据时序数据是按时间顺序采集的数据,通常是连续产生的。这种数据在大数据中很常见,例如传感器数据、网络流量、金融市场数据等。
图数据图数据是由节点和边组成的网络数据,用于表示各种复杂的关系和连接。在大数据中,图数据广泛用于社交网络、知识图谱、网络拓扑等领域。
空间数据空间数据是与地理位置相关的数据,包括地理信息系统(GIS)数据、地理坐标数据等。这些数据在大数据中在地理信息、城市规划、环境监测等方面有广泛应用。
传感器数据传感器数据是由各种传感器收集的数据,用于监测和测量各种环境参数。在大数据中,传感器数据在物联网应用、工业自动化等方面非常重要。

总体而言,大数据中的数据类型多种多样,涵盖了结构化、半结构化和非结构化的数据,同时包含了时序数据、图数据、空间数据等不同类型的数据。这些数据的分布情况也因不同行业、应用和数据源而异,构成了大数据生态系统的多样性和复杂性。

Big Data 大数据的特点

大数据具有以下主要特点:

特点说明
大量性(Volume)大数据的最显著特点是数据量庞大,远远超出传统数据处理系统的能力。这些数据集可能包含亿万、甚至万亿级的数据记录,涉及海量数据的处理和存储。
高速性(Velocity)大数据往往以高速率产生和流动,包括实时数据流和快速生成的数据。处理这些高速流动的数据对于实时分析和决策至关重要。从数据的生成到消耗,时间窗口非常小,可以用于生成决策的时间非常少。1 秒定律,这一点也是和传统的数据挖掘技术有着本质的不同
多样性(Variety)大数据不仅包含结构化数据(如数据库表格),还包括半结构化数据(如JSON、XML)和非结构化数据(如文本、图像、音频、视频)。这些多样化的数据类型需要灵活的处理方法。
真实性(Veracity)大数据往往包含来自多个来源和不同质量的数据。数据的真实性和准确性成为挑战,需要进行数据质量的验证和处理。
价值密度(Value)大数据中的价值密度不同,即只有一小部分数据是有用的,其他数据可能是噪声或冗余的。因此,从大数据中提取有价值的信息和洞察需要适当的处理和分析。
复杂性(Complexity)大数据处理涉及多种数据源、数据类型和数据关联,涉及复杂的数据分析和算法。处理大数据需要灵活、高效的计算和存储系统。
时效性(Timeliness)随着数据的迅速产生,及时获取和分析数据变得尤为重要。许多应用需要实时或准实时地处理大数据以支持实时决策。
可扩展性(Scalability)随着数据量的增长,大数据系统需要具有良好的可扩展性,能够在需要时进行水平扩展,以适应数据规模的增大。
安全性(Security)大数据中可能包含敏感信息,如个人身份、财务信息等。确保大数据的安全性和隐私保护至关重要,需要采取相应的安全措施。
新价值(Novelty)大数据的分析和挖掘可以带来新的见解和新价值,改变现有业务和创造新的商业机会。

这些特点使得大数据处理成为一项复杂且具有挑战性的任务,也为各行各业带来了巨大的机遇和变革。随着技术的不断发展和创新,大数据的特点将继续演变和丰富。

科学研究的思维方法

试验、理论、计算和数据是科学研究中不可或缺的四个要素,通常称为“四大支柱”。它们共同构成了科学研究的基础和方法,使得科学能够发展和进步。

方法说明例如
试验(Experiment)试验是通过人为控制和观察现象的变化,来验证或证伪科学假设的过程。在实验中,研究人员通过设计和执行一系列操作来操纵自变量,并观察其对因变量的影响。试验是科学研究的一种重要方法,特别适用于物理学、化学、生物学等实验科学领域。伽利略在比萨斜塔做两个铁球同时落地试验
理论(Theory)理论是对现象、规律或事件背后的基本原理和解释的系统化阐述。科学理论是科学研究的框架,能够预测和解释观察到的现象。理论的构建通常基于实验观察和数据收集,同时需要经过验证和修正。牛顿三大定律
计算(Computation)计算在现代科学研究中扮演着越来越重要的角色。随着计算机技术的不断发展,科学家可以利用计算机进行复杂模拟、数值计算和建模,帮助理解和预测现象。计算在物理学、天文学、气候学等领域中应用广泛。根据历史数据推测规律
数据(Data)数据是科学研究的基础,它是通过实验、观察、调查等手段收集到的事实和信息。科学家通过收集和分析数据来验证假设、构建模型、寻找规律和做出推断。大数据时代的到来使得数据在科学研究中发挥了更为重要的作用。大数据计算规律

这四个要素密切相互关联,构成了科学研究的方法论。科学家通常会结合试验、理论、计算和数据的方法,以解决问题、探索未知、发现新知识,并推动科学的不断进步。

大数据思维是一种重要的思考方式,与传统的抽样统计相比,它强调以下特点:

思维特点说明
全样而非抽样在传统的抽样统计中,为了估计总体的特征,通常从总体中抽取一部分样本进行分析。而大数据思维则是指在数据量足够大的情况下,不再依赖抽样,而是分析全部数据,从而获得更全面和准确的信息。通过全样本的分析,可以发现更为细微的模式和关联。
效率而非精确大数据思维注重高效的数据处理和分析,而不是追求绝对的精确性。在海量数据的情况下,完全精确的结果可能需要很大的计算资源和时间,而大数据思维更注重的是在相对短的时间内,得出对问题足够准确的结果。
相关而非因果大数据分析往往关注数据之间的相关性而非因果关系。因为大数据通常包含众多变量和数据点,要确切地确定因果关系可能需要更多的实验和研究。因此,大数据思维更倾向于探索和发现变量之间的相关性和联结,而非确定因果关系。

这些特点反映了大数据思维的灵活性和实用性。通过利用大数据的全样本、高效性和相关性,人们可以更好地挖掘数据中的信息和洞察,发现新的商机和问题解决方案。然而,也需要注意在使用大数据时避免错误推断和数据偏差,确保数据分析的可靠性和合理性。

Big Data 大数据应用

大数据的应用领域非常广泛,几乎涵盖了各个行业和领域。以下是一些主要的大数据应用领域:

应用领域说明
商业和市场营销大数据在商业和市场营销中被广泛应用,用于市场调研、用户行为分析、个性化营销、广告定向和销售预测等,帮助企业更好地了解客户需求,优化市场策略,提高销售效率。
金融服务金融领域是大数据应用的早期领域之一。大数据在风险评估、欺诈检测、信用评分、股票交易分析等方面发挥着重要作用,有助于提高金融机构的运营效率和风险管理能力。
医疗和生物科学大数据在医疗和生物科学领域的应用不断增加。它被用于基因组学、生物信息学、药物研发、个性化医疗等,有助于加速医学研究和提高治疗效果。
智能城市和交通大数据在智能城市和交通管理中发挥着重要作用。它可以用于交通拥堵监测、公共交通优化、城市规划、能源管理等,使城市更智能、高效和可持续发展。
制造业制造业利用大数据进行生产优化、供应链管理、产品质量监控和预测性维护等,提高生产效率和产品质量。
能源与资源管理大数据在能源与资源管理中的应用有助于实现能源消耗优化、智能能源网格管理、环境监测等,促进可持续能源利用和资源保护。
社交媒体与娱乐社交媒体平台利用大数据进行用户行为分析、内容推荐和广告定向,提供更个性化的用户体验。同时,大数据在娱乐行业也有广泛应用,用于内容制作、市场推广和观众分析。
教育与学术研究大数据在教育领域可以用于学生学习行为分析、个性化教学和学术研究支持,为教育提供更有效的支持和改进措施。

除了以上领域,大数据还被应用于环境监测、政府公共服务、农业、交通安全、航空航天等各个领域。随着技术的不断进步和数据的不断增长,大数据应用的范围将继续扩展,并为各个行业带来更多的创新和机遇。

应用举例

影视剧投拍有风险

中外合资 2016 的大片,张艺谋导演的《长城》 THE GREAT WALL 亏损
而通过大数据技术,根据导演,剧本,主演计算预测演出成功的概率,风靡全球的美剧《纸牌屋》HOUSE OF CARDS 大获成功。

传统流感预测方式

各医疗机构层层上报门诊病例,然后专家汇总分析,最后发布报告,耗时一般好几个月甚至一年时间。
而 Google 用大数据预测流感趋势,搜索引擎实时收集各类用户查询信息,预测信息和专家汇总信息基本一致,而时效性非常高

Big Data 技术支撑

在 Big Data(大数据)时代,主要的技术支撑可以归纳为存储、计算和网络。这三个方面是构建大数据处理和分析平台的核心要素,它们共同协作来应对海量、高速和多样化的数据处理需求,以下是 Big Data 技术支撑的主要内容:

技术解决问题工具
分布式存储系统Big Data 需要处理海量数据,传统的单一存储系统无法满足需求分布式存储系统,如 Hadoop Distributed File System (HDFS)、Amazon S3、Google Cloud Storage 等,能够将数据分散存储在多个节点上,实现高容量和高可靠性
分布式计算框架为了有效处理大数据,分布式计算框架必不可少Hadoop MapReduce、Apache Spark、Apache Flink 等分布式计算框架能够将数据分割成小块,在多台计算节点上并行处理,实现高效的数据计算和分析
NoSQL 数据库传统关系型数据库在处理大规模非结构化数据时效率较低NoSQL 数据库,如 MongoDB、Cassandra、Redis 等,适用于大规模数据的分布式存储和查询。
流式处理技术随着数据源的增加,对实时处理和分析的需求也越来越高流式处理技术,如 Apache Kafka、Apache Flink 等,能够实时处理数据流,支持实时监控、即时响应等应用场景。
机器学习和人工智能Big Data 中的数据量也为机器学习和人工智能提供了更多训练和学习的数据。这些技术能够从数据中挖掘模式、趋势和见解,用于预测、推荐、自动化等任务。
图计算和图数据库图计算技术针对复杂的关系型数据,如社交网络、推荐系统和网络拓扑等图数据库如 Neo4j 和 Amazon Neptune 等,能够高效处理图数据
数据挖掘和数据分析工具能够帮助研究人员和分析师从大数据中发现有价值的信息和洞察。数据挖掘和数据分析工具如 R、Python、Tableau 等,
云计算技术云计算提供了灵活的计算和存储资源,支持大数据处理的扩展性和弹性。公有云平台,如 Amazon Web Services (AWS)、Microsoft Azure、Google Cloud Platform 等,为大数据应用提供了基础设施和服务。
数据安全和隐私保护处理大数据时,数据的安全和隐私保护尤为重要。加密技术、访问控制、数据脱敏等手段用于确保数据在传输和存储过程中的安全性和隐私性。
数据可视化工具数据可视化工具能够将复杂的大数据转化为可视化图表和图形,使得数据分析更加直观和易懂。如 Tableau, Microsoft Power BI, Google Data Studio, D3.js, Plotly, matplotlib, ggplot2, Highcharts, Adobe Illustrator, Infogram

这些技术共同构成了 Big Data 技术支撑的重要组成部分,使得大数据能够被有效处理、存储、分析和应用,带来了巨大的商业和社会价值。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值