大数据技术概述与入门

一、大数据概述

        大数据概念最初来自于2009年的《自然》杂志, Ginsberg采用大数据搜索引擎查询数据并对流行性流感活动进行检测,之后在2011年2月《科学》杂志通过社会调查的方式研究了”大数据”对人们生活的影响,随后麦肯锡在2011年5月发布名为《海量数据,创新、竞争和提高生成率的下一个新领域》的报告,让大数据的概念产生了较大的影响。麦肯锡的报告指出,大数据是指其大小超出了常规数据库工具获取,存储,管理和分析能力的数据集,其已经渗透到很多行业和业务职能领域,逐渐成为重要的生产因素。

        随着信息技术全面融入社会生活,信息量已经积累到了引发变革的程度,不仅数据量在不断增长,数据的增长速度也在不断加快。图灵奖(计算机最高奖项)获得者杰姆·格雷(Jim Gray)曾提出著名的”新摩尔定律”:每18个月全球新增信息量是计算机有史以来全部信息量的总和。但事实上,过去三十年中,全世界的数据量大约每两年增加10倍,远远超过了计算机领域的新摩尔定律。时至今日,所累积的数据量之大,已经无法用传统方法处理,大数据时代的到来,使得大数据技术随之飞速发展。

数据来源:Statista,2020-11         

图1 全球每年产生的数据总量

1. 批处理与流处理

        大数据技术包括两种不同的数据处理方式,分别是批处理和流处理。批处理主要操作大容量的静态数据集,并在计算过程完成后返回结果,而流处理则是随时对进入系统的数据进行计算。二者主要区别在于数据处理的顺序以及操作对象不同,批处理在获取数据后先进行存储,将数据存储为数据集后对数据集进行操作并得出结果;而流处理在获取数据后先进行数据操作,操作对象系统实时获取到的每个数据项,而不是整个数据集,实时产生结果后再进行归档或存储。两种数据处理模式的流程如图2所示。

图2 数据处理模式

        批处理适合需要访问批量数据的计算工作,例如求和、求方差等类似的计算,无论数据是从外存直接提取还是先载入内存中,批处理系统都对数据量做了考虑,在应对大量数据方面表现较为出色。但将大量数据进行统一处理往往会花费较长的时间,且高频的读写操作会进一步导致处理速度降低,因此对数据处理的实时性要求较高的场景一般不会选择批处理方式,而会选择”即收即算”的流处理方式。流处理适合针对同一类数据执行同一个操作的场景,经常用于处理必须对变动或峰值做出响应并且关注一段时间内变化趋势的数据,理论上流处理可以持续处理无限量的数据。

        批处理在通常情况下是多数技术方案选择的处理方式,但在数据量大、对数据实时要求极高的金融行业,批处理的应用也很多,尤其是在风控、量化等应用场景,批处理才是主流的处理方式。

2.技术图谱

        大数据技术最初主要围绕数据存储、处理计算两类基础技术进行,之后又发展出了与大数据配套的数据治理、数据分析、信息安全等技术,形成了庞大的大数据技术体系,这套技术体系不仅仅适用于金融行业,在其他使用了大数据技术的领域也广为应用,图3为大数据体系中按照数据分析流程划分的相关技术图谱。

图3 大数据技术图谱

        数据获取技术是数据分析的第一步,主要为获取信息的过程,一般包括信息的采集、传输和预处理。数据采集可能会通过传感器采集、物联网设备终端上传、网络爬虫获取等,并将数据通过数据线、无线电、互联网等数据传输手段将数据传输至数据存储技术设施。因为采集数据可能有大量无意义且易被识别的数据,那么还可以通过预处理过程将这种数据剔除,避免大量无意义的数据占据存储空间。预处理过程主要涉及到数据管理技术。其主要为提升数据的可用性,将低价值密度的数据进行整理,去掉质量低、价值低、不符合标准的数据,整合出具备更高价值密度的数据。数据管理技术包括元数据管理技术、数据集成技术、数据建模技术等,主要功能为数据整合与数据资产管理。数据存储技术主要为应对海量数据而产生和发展,大数据时代的数据具有数据量大、数据源异构多样、数据时效性高等特点,传统的数据存储技术难以应对持续产生且异构的海量数据,于是新型的存储技术随之产生,目前应用较为广泛的存储技术主要有图数据库、文档数据库、时序数据库、关系型数据库、分析性数据库、k-v数据库、文件存储技术、对象存储技术等。

        数据处理技术主要包括数据计算与数据分析。数据计算技术基于各个业务对有效数据的需求,与数据存储技术共同发展,也突破了集中式架构与关系型数据库的约束,出现了规模并行化处理的分布式计算框架、分布式批处理计算框架、分布式流处理计算框架等。使数据计算能力有效提高,可处理和计算的数据范围明显增加。数据分析技术在数据计算的基础上,进行进一步的价值挖掘,将数据与实际业务相结合,实现数据资源内蕴价值的获取。数据分析主要包括数据统计技术、数据可视化技术、数据挖掘技术、深度学习技术、图分析技术等,将数据通过复杂的处理方式为数据增值,在工业建设、商业贸易与科学研究方面显现出更大价值,并将分析结果运用在实际的场景中。

        信息安全是保证大数据的时代下,数据安全的核心技术。数据的价值不断被挖掘的同时,数据安全的问题需要引起重视。数据的泄漏、滥用甚至丢失问题时有发生,对企业甚至社会造成了极大的影响。身份认证、数据脱敏、隐私计算等技术正在不断发展,在数据即资产的的当下,信息安全技术在企业、社会甚至国家的大数据建设上都是必不可少的一环。

二、大数据技术原理

1.数据获取

(1)数据采集

        数据的采集方式非常多,这里仅介绍传感器、日志文件、网络爬虫和数据库四种最为常用的采集方式。

·传感器采集

        传感器采集方式主要将环境中的物理信号转化为数字信号,包括图像、声音、电压电流、压力压强、振动、温度、距离等多种类型,这种信息的采集场景往往在移动端的使用、智能监测探测设备日常工作、科学研究设施等。传感器采集的信息往往含有大量的无效信息,需要在预处理过程中进行初步的数据筛选。

·网络日志

        日志是非常常用的数据源,信息系统的日志是以特殊形式记录的系统运行过程,包括用户的交互操作、系统的返回数据、每一个操作是否成功,及其成功码或是报错码等等,在分析用户行为时有很大的价值。常见的服务器日志有三种格式类型,都是ASCII文本格式,其分别为通用日志文件格式 (NCSA)、扩展日志文件格式 (W3C) 和IIS日志文件格式 (Microsoft)。常见的日志采集系统包括高可用性、高可靠性和分布式处理的Flu

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值