大数据技术的概论（2）

最新推荐文章于 2024-05-13 20:26:42 发布

xyf0912

最新推荐文章于 2024-05-13 20:26:42 发布

阅读量1.6k

点赞数

文章标签：大数据编程语言

本文链接：https://blog.csdn.net/xyf0912/article/details/111373593

版权

1.5大数据带来多大变革

1技术变革特征
2管理模式变革（人力，流程，制造，市场）
1）数据资产化
2）决策智能化
3信息技术IT向数据技术DI的转变
相关资料：当地时间11月23日，世界贸易组织（WTO）发布名为《2020年世界贸易报告：数字时代促进创新的政府政策》的年度报告称，世界经济正在向数字化和信息化转变。报告围绕数字时代如何创新政府政策这一主题，分析了近年来各国政府支持向数字经济过渡、促进数字创新、经济创新和技术进步政策及其趋势，以及这一趋势对贸易流动和全球商业的影响。

报告指出，贸易和贸易政策历来是创新的重要推动力，特别是多边贸易体系通过完善可预测的全球市场条件和支持全球价值链发展，对创新和技术的全球扩展作出了重大贡献。随着数字经济不断发展，企业更加依赖无形资产，与传统企业相比，数字企业能够更快地进入全球市场。数字经济的成功将取决于市场开放、信息获取和信息通信技术产品及服务、合作开展研究项目以及新技术传播等要素。

报告说，世界经济正在向数字化和信息化转变，这一转变凸显创新和技术在促进经济增长方面的重要性。在数字时代，政府政策的一个重要特征是支持向数字经济转型。越来越多的国家采取了“新产业政策”，通过支持创新和技术升级来促进增长。支持数字经济的创新型政府政策体现在推出旨在提升技术、推进生产及服务数字化的经济发展规划，包括具体的数字发展计划和创新型产业发展战略。此外，新冠肺炎疫情刺激了电子商务和数字创新发展，同时也促进了政府对信息通信技术能力建设和升级的支持措施。

报告说，推出激励政策以吸引外国直接投资（FDI）仍然是各国投资政策和产业发展战略的核心。外国直接投资政策应适应数字化特点，各国为外资企业提供服务，不仅仅是帮助外资企业建立生产能力，更重要的是提供高质量的数字基础设施及其服务。数字时代政府政策创新在于推出更好的政策以支持新型数字化供应链。

政府相关政策的重点，一是鼓励收集、处理和分享数据，同时注意保护私人信息安全；二是通过使用和传播数字技术及其创新来扩大数字经济的规模效益；三是鉴于缺乏资金将抑制企业对创新的投资，政府应采取相应政策措施改进融资环境，减少监管负担；四是政府应积极参与创新活动并在其中发挥协调作用，包括介入协调通信基础设施建设共同融资；五是政府通过适度干预以提高网络效率及其社会价值，并解决违反公平竞争的行为和规避单一技术主导整个市场的风险。

此外，加强国际合作可以在促进数字经济发展和追求更加有效的技术创新方面发挥重要作用，并有助于减少国家政策的负面溢出效应，如扭曲贸易、转移投资或刺激不公平竞争等。通过国际合作还可以增强各国对数字政策的共同理解，有助于防止贸易紧张和报复，从而为创新、投资和跨境商业繁荣奠定更坚实的基础。

报告指出，自2008年国际金融危机以来，政府对经济的干预又开始流行起来。迄今，大约115个国家已经制定了“新产业政策”“工业4.0”或“数字转型”计划，所有处于不同发展阶段的国家都有支持创新和数字化转型的政策，特别是许多发展中国家采取了积极政策推动数字科技发展及电信基础设施建设。这些新政策反映了数字经济的特点，即以数字化为导向，鼓励技术升级、数字化生产和数字创新，突出数据在政策工具中的核心作用。

报告列出了支持数字化转型的政府政策重点。一是鼓励创新和知识共享，包括支持技术研发和初创企业、吸引人才、保护知识产权；二是采取旨在鼓励和便利外国直接投资的政策，以及促进创新的政府采购计划；三是制定数字政策和法规，发展和促进数字能力及基础设施建设；四是着力解决快速数字化转型带来的不正当竞争或垄断以及相关就业压力；五是重视发展中国家面临的数字经济挑战，解决发达国家和发展中国家在数字基础设施和技能水平方面存在的数字鸿沟；六是重视开放贸易和参与国际竞争对有效推进政府创新政策、促进数字经济创新的重要作用。

报告说，世界贸易组织长期以来致力于推动贸易自由化和支持创新，主张开放贸易可以使创新政策更有效地服务于实现既定目标。未来，世贸组织将继续在减少数字产品及其服务市场的不确定性方面发挥重要作用。各成员国（地区）须考虑如何鼓励分享创新政策带来的利益、需要采取哪些措施来促进投资，以及是否可以扩大新政策的灵活性以支持数字创新。

1.6大数据的表现形式

大数据产品的基础是各种各样的数据，数据是记录下来可以被鉴别的符号，是最原始的素材，未被加工解释，没有回答任何特定的问题；信息则是已经被处理、具有逻辑关系的数据，是对数据的解释，这种信息对其接收者具有意义；知识是从相关信息中过滤、提炼及加工而得到的有用资料。

此外，知识基于推理和分析，还可能产生新的知识；智慧则是人类所表现出来的一种独有的能力，主要表现为收集、加工、应用、传播知识的能力，以及对事物发展的前瞻性看法。智慧是在知识的基础之上，通过经验、阅历、见识的累积，而形成的对事物的深刻认识、远见，体现为一种卓越的判断力。

大数据产品往往涉及“智慧”，那么智慧的表现形式是什么呢？在中国古代，是通过兵书、棋谱等形式积累前人的智慧的。那么大数据产品是否也可以借鉴这种形式，进行智慧的积累呢？其实，棋谱和兵书都是某种应对规则的积累。例如，棋谱是你走一步，我该如何应对的规则集锦。大数据在反映企业某种市场营销规则时，也是通过这种“你动，我如何动”的规则进行细化落实的

某企业将这种应对规则定义为“知识”，然后通过技术方法，将这些应对知识积累为“知识库”，采用类似讨论群的方式进行收集、管理，让前期市场营销人员的营销知识能够表述出来，并积累下来，供后来者参考。每个人在总结并形成一条知识后，会获得“点赞”、积分等不同形式的奖励，以此激励大家将自己工作中的应对策略进行积累和总结。

这种知识库对于积累市场营销规则，积累企业内部管理规则，是一种重要的探索。这种探索是对大数据“智慧”表现形式的一种尝试，在实践中有很好的效果。

1.7大数据与数据科学

1）数据科学
课程教学体系涵盖了大数据的发现、处理、运算、应用等核心理论与技术，具体课程包括：大数据概论、大数据存储与管理、大数据挖掘、机器学习、人工智能基础、Python程序设计、统计学习、神经网络与深度学习方法、多媒体信息处理、数据可视化技术、智能计算技术、分布式与并行计算、云计算与数据安全、数据库原理及应用、算法设计与分析、高级语言程序设计、优化理论与方法等。 [1]
毕业方向编辑
毕业生能在互联网企业、金融机构、科研院所、高等院校等从事大数据分析、挖掘、处理、服务、应用和研究工作，亦可从事各行业大数据系统的集成、设计、开发、管理、维护等工作，也适合在高等院校及科研院所的相关交叉学科继续深造。
2）大数据技术
大数据（big data），IT行业术语，是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
2：大数据的关键技术
1）大数据分析技术
1>数据处理：自然语言处理技术；多媒体内容理解；图文转换技术等
2>统计和分析：A/Btest;地域占比；文本情感分析；语义识别技术
3>数据挖掘：关联规则分析，分类；聚类
4>模型预测：预测模型，机器学习，建模仿真；模式属别技术等
2）大数据预处理技术
1>数据采集：ETL(Extract-Transform-Load)工具
2>数据采取：关系数据库；NoSQL;SQL等
3>基础架构支持：云存储，分布式文件系统等
4>计算结果展现：云计算；标签云；关系图
3）数据存储
1>结构化数据：海量数据的查询，统计，更新等操作效率低
2>半架构化数据:图片，视频word，PDF，等文件存储，不利于检索，查询和存储
3>半架构化数据：要么转换为结构化存储，要么按非结构化存储
4）数据计算
3大数据的工具
常用的工具：
知乎：　大数据技术常用的三种工具都有哪些

一、Hadoop

Hadoop是一个能够对大量数据进行分布式处理的软件框架。但是Hadoop是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。Hadoop是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。Hadoop还是可伸缩的，能够处理PB级数据。此外，Hadoop依赖于社区服务器，因此它的成本比较低，任何人都可以使用。

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点：

⒈高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

⒉高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。

⒊高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。

⒋高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。

Hadoop带有用Java语言编写的框架，因此运行在Linux生产平台上是非常理想的。Hadoop上的应用程序也可以使用其他语言编写，比如C++。

二、HPCC

HPCC，HighPerformanceComputingandCommunications(高性能计算与通信)的缩写。1993年，由美国科学、工程、技术联邦协调理事会向国会提交了"重大挑战项目：高性能计算与通信"的报告，也就是被称为HPCC计划的报告，即美国总统科学战略项目，其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国实施信息高速公路而上实施的计划，该计划的实施将耗资百亿美元，其主要目标要达到：开发可扩展的计算系统及相关软件，以支持太位级网络传输性能，开发千兆比特网络技术，扩展研究和教育机构及网络连接能力。

该项目主要由五部分组成：

1、高性能计算机系统(HPCS)，内容包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等;

2、先进软件技术与算法(ASTA)，内容有巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算计算及高性能计算研究中心等;

3、国家科研与教育网格(NREN)，内容有中接站及10亿位级传输的研究与开发;

4、基本研究与人类资源(BRHR)，内容有基础研究、培训、教育及课程教材，被设计通过奖励调查者-开始的，长期的调查在可升级的高性能计算中来增加创新意识流，通过提高教育和高性能的计算训练和通信来加大熟练的和训练有素的人员的联营，和来提供必需的基础架构来支持这些调查和研究活动;

5、信息基础结构技术和应用(IITA)，目的在于保证美国在先进信息技术开发方面的地位。

三、Storm

Storm是自由的开源软件，一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流，用于处理Hadoop的批量数据。Storm很简单，支持许多种编程语言，使用起来非常有趣。Storm由Twitter开源而来，其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、Admaster等等。

Storm有许多应用领域：实时分析、在线机器学习、不停顿的计算、分布式RPC(远过程调用协议，一种通过网络从远程计算机程序上请求服务)、ETL(Extraction-Transformation-Loading的缩写，即数据抽取、转换和加载)等等。Storm的处理速度惊人：经测试，每个节点每秒钟可以处理100万个数据元组。Storm是可扩展、容错，很容易设置和操作。

大数据技术常用的工具有哪些.中琛魔方大数据分析平台表示大数据技术为决策提供依据，在政府、企业、科研项目等决策中扮演着重要的角色，在社会治理和企业管理中起到了不容忽视的作用。
　　一、语言工具类

1、Java编程技术

Java编程技术是目前使用最为广泛的网络编程语言之一,是大数据学习的基础。

Java具有简单性、面向对象、分布式、健壮性、安全性、平台独立与可移植性、多线程、动态性等特点，拥有极高的跨平台能力，是一种强类型语言。可以编写桌面应用程序、Web应用程序、分布式系统和嵌入式系统应用程序等，是大数据工程师最喜欢的编程工具。

最重要的是，Hadoop以及其他大数据处理技术很多都是用Java。因此，想学好大数据，掌握Java基础是必不可少的。

2、Linux命令

许多大数据开发通常是在Linux环境下进行的，相比Linux操作系统，Windows操作系统是封闭的操作系统，开源的大数据软件很受限制。因此，想从事大数据开发相关工作，还需掌握Linux基础操作命令。

3、Scala

Scala是一门多范式的编程语言，一方面继承了多种语言中的优秀特性，一方面又没有抛弃 Java 这个强大的平台。大数据开发重要框架Spark就是采用Scala语言设计的，想要学好Spark框架，拥有Scala基础是必不可少的。因此，大数据开发需掌握Scala编程基础知识!

4、Python与数据分析

Python是面向对象的编程语言，拥有丰富的库，使用简单，应用广泛，在大数据领域也有所应用，主要可用于数据采集、数据分析以及数据可视化等。因此，大数据开发需学习一定的Python知识。

二、数据采集类工具

1、Nutch

Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具，包括全文搜索和Web爬虫。

2、Scrapy

Scrapy是一个为了爬取网站数据、提取结构性数据而编写的应用框架，可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。大数据的采集需要掌握Nutch与Scrapy爬虫技术。

三、 ETL工具

1、Sqoop

Sqoop是一个用于在Hadoop和关系数据库服务器之间传输数据的工具。它用于从关系数据库（如MySQL，Oracle）导入数据到Hadoop HDFS，并从Hadoop文件系统导出到关系数据库，学习使用Sqoop对关系型数据库数据和Hadoop之间的导入有很大的帮助。

2、Kettle

Kettle是一个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。作为Pentaho的一个重要组成部分，现在在国内项目应用上逐渐增多，其数据抽取高效稳定。

四、数据存储类工具

1、Hadoop分布式存储与计算

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System)，简称HDFS。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，MapReduce则为海量的数据提供了计算，因此，需要重点掌握。

除此之外，还需要掌握Hadoop集群、Hadoop集群管理、YARN以及Hadoop高级管理等相关技术与操作!

2、Hive

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。相对于用Java代码编写MapReduce来说，Hive的优势明显：快速开发，人员成本低，可扩展性（自由扩展集群规模），延展性（支持自定义函数）。十分适合数据仓库的统计分析。对于Hive需掌握其安装、应用及高级操作等。

3、ZooKeeper

ZooKeeper是一个开源的分布式协调服务，是Hadoop和HBase的重要组件，是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组件服务等。在大数据开发中要掌握ZooKeeper的常用命令及功能的实现方法。

4、HBase

HBase是一个分布式的、面向列的开源数据库，它不同于一般的关系数据库，更适合于非结构化数据存储的数据库，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，大数据开发需掌握HBase基础知识、应用、架构以及高级用法等。

5、Redis

Redis是一个Key-Value存储系统，其出现很大程度补偿了Memcached这类Key/Value存储的不足，在部分场合可以对关系数据库起到很好的补充作用。它提供了Java，C/C++，C#，PHP，Java，Perl，Object-C，Python，Ruby，Erlang等客户端。使用很方便，大数据开发需掌握Redis的安装、配置及相关使用方法。

6、Kafka

Kafka是一种高吞吐量的分布式发布订阅消息系统，其在大数据开发应用上的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。大数据开发需掌握Kafka架构原理及各组件的作用和使用方法及相关功能的实现。

7、Neo4j

Neo4j是一个高性能的NoSQL图形数据库，具有处理百万和T级节点和边的大尺度处理网络分析能力。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎，但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j因其嵌入式、高性能、轻量级等优势，越来越受到关注。

8、Cassandra

Cassandra是一个混合型的非关系的数据库，类似于Google的BigTable，其主要功能比Dynamo（分布式的Key-Value存储系统）更丰富。这种NoSQL数据库最初由Facebook开发，现已被1500多家企业组织使用，包括苹果、欧洲原子核研究组织（CERN）、康卡斯特、电子港湾、GitHub、GoDaddy、Hulu、Instagram、Intuit、Netflix、Reddit等。是一种流行的分布式结构化数据存储方案。

9、SSM

SSM框架是由Spring、Spring MVC、MyBatis三个开源框架整合而成，常作为数据源较简单的Web项目的框架。大数据开发需分别掌握Spring、Spring MVC、MyBatis三种框架的同时，再使用SSM进行整合操作。

五、分析计算类工具

1、Spark

Spark是专为大规模数据处理而设计的快速通用的计算引擎，其提供了一个全面、统一的框架用于管理各种不同性质的数据集和数据源的大数据处理的需求，大数据开发需掌握Spark基础、SparkJob、Spark RDD部署与资源分配、Spark Shuffle、Spark内存管理、Spark广播变量、Spark SQL、Spark Streaming以及Spark ML等相关知识。

2、Storm

Storm 是自由的开源软件，一个分布式的、容错的实时计算系统，可以非常可靠的处理庞大的数据流，用于处理Hadoop的批量数据。Storm支持许多种编程语言，并且有许多应用领域：实时分析、在线机器学习、不停顿的计算、分布式RPC(远过程调用协议，一种通过网路从远程计算机程序上请求服务)、ETL等等。

Storm的处理速度惊人：经测试，每个节点每秒钟可以处理100万个数据元组。

3、Mahout

Mahout目的是“为快速创建可扩展、高性能的机器学习应用程序而打造一个环境”。主要特点是为可伸缩的算法提供可扩展环境、面向Scala/Spark/H2O/Flink的新颖算法、Samsara（类似R的矢量数学环境），它还包括了用于在MapReduce上进行数据挖掘的众多算法。

4、Pentaho

Pentaho是世界上最流行的开源商务智能软件，以工作流为核心的、强调面向解决方案而非工具组件的、基于Java平台的BI套件。包括一个Web Server平台和几个工具软件：报表、分析、图表、数据集成、数据挖掘等，可以说包括了商务智能的方方面面。

Pentaho的工具可以连接到NoSQL数据库。大数据开发需了解其使用方法。

六、查询应用类工具

1、Avro与Protobuf

Avro与Protobuf均是数据序列化系统，可以提供丰富的数据结构类型，十分适合做数据存储，还可进行不同语言之间相互通信的数据交换格式，学习大数据，需掌握其具体用法。

2、Phoenix

Phoenix是用Java编写的基于JDBC API操作HBase的开源SQL引擎，其具有动态列、散列加载、查询服务器、追踪、事务、用户自定义函数、二级索引、命名空间映射、数据收集、时间戳列、分页查询、跳跃查询、视图以及多租户的特性，大数据开发需掌握其原理和使用方法。

3、Kylin

Kylin是一个开源的分布式分析引擎，提供了基于Hadoop的超大型数据集（TB/PB级别）的SQL接口以及多维度的OLAP分布式联机分析。最初由eBay开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。

4、Zeppelin

Zeppelin是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档，并且支持多种语言，包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等。

5、ElasticSearch

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式、支持多用户的全文搜索引擎，基于RESTful Web接口。ElasticSearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索、稳定、可靠、快速、安装使用方便。

6、Solr

Solr基于Apache Lucene，是一种高度可靠、高度扩展的企业搜索平台, 是一款非常优秀的全文搜索引擎。知名用户包括eHarmony、西尔斯、StubHub、Zappos、百思买、AT&T、Instagram、Netflix、彭博社和Travelocity。大数据开发需了解其基本原理和使用方法。

七、数据管理类工具

1、Azkaban

Azkaban是由linked开源的一个批量工作流任务调度器，它是由三个部分组成：Azkaban Web Server(管理服务器)、Azkaban Executor Server(执行管理器)和MySQL(关系数据库)，可用于在一个工作流内以一个特定的顺序运行一组工作和流程，可以利用Azkaban来完成大数据的任务调度，大数据开发需掌握Azkaban的相关配置及语法规则。

2、Mesos

Mesos 是由加州大学伯克利分校的AMPLab首先开发的一款开源集群管理软件，支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等架构。对数据中心而言它就像一个单一的资源池，从物理或虚拟机器中抽离了CPU、内存、存储以及其它计算资源，很容易建立和有效运行具备容错性和弹性的分布式系统。

3、Sentry

Sentry 是一个开源的实时错误报告工具，支持 Web 前后端、移动应用以及游戏，支持 Python、OC、Java、Go、Node、Django、RoR 等主流编程语言和框架，还提供了 GitHub、Slack、Trello 等常见开发工具的集成。使用Sentry对数据安全管理很有帮助。

八、运维监控类工具

Flume是一款高可用、高可靠、分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，并写到各种数据接受方(可定制)的能力。大数据开发需掌握其安装、配置以及相关使用方法。