大数据技术原理与应用作业十

大数据技术原理与应用作业十

1. 试述流数据的概念。

流数据,即数据以大量、快速、时变的流形式持续到达。

2. 试述流数据的特点。

流数据具有如下特征:

  • 数据快速持续到达,潜在大小也许是无穷无尽的
  • 数据来源众多,格式复杂
  • 数据量大,但是不十分关注存储,一旦经过处理,要么被丢弃,要么被归档存储
  • 注重数据的整体价值,不过分关注个别数据
  • 数据顺序颠倒,或者不完整,系统无法控制将要处理的新到达的数据元素的顺序

3. 在流计算的理念中,数据的价值与时间具备怎样的关系?

数据的价值随着时间的流失而降低

4. 试述流计算的需求。

对于一个流计算系统来说,它应达到如下需求:

  • 高性能:处理大数据的基本要求,如每秒处理几十万条数据
  • 海量式:支持TB级甚至是PB级的数据规模
  • 实时性:保证较低的延迟时间,达到秒级别,甚至是毫秒级别
  • 分布式:支持大数据的基本架构,必须能够平滑扩展
  • 易用性:能够快速进行开发和部署
  • 可靠性:能可靠地处理流数据

5. 试述MapReduce框架为何不适合用于处理流数据。

Hadoop 设计的初衷是面向大规模数据的批量处理,在使用MapReduce处理大规模文件时,一个大文件会被分解成许多个块分发到不同的机器上,每台机器并行运行MapReduce任务,最后对结果进行汇总输出。有时候,完成一个任务甚至要经过多轮的迭代。很显然,这种批量任务处理方式在时间延迟方面是无法满足流计算的实时响应需求的。

6. 将基于MapReduce的批量处理转为小批量处理,每隔一个周期就启动一次MapReduce作业,通过这样的方式来处理流数据是否可行?为什么?

不可行。

  • 切分成小的片段,虽然可以降低延迟,但是也增加了任务处理的附加开销,而且还要处理片段之间的依赖关系,因为一一个片段可能需要用到前一一个片段的计算结果。
  • 需要对MapReduce进行改造以支持流式处理,Reduce 阶段的结果不能直接输出,而是保存在内存中。这种做法会大大增加MapReduce框架的复杂度,导致系统难以维护和扩展。
  • 降低了用户程序的可伸缩性,因为用户必须要使用MapReduce接口来定义流式作业。

总之,流数据处理和批量数据处理是两种截然不同的数据处理模式,MapReduce是专门面向静态数据的批量处理的,内部各种实现机制都为批处理做了高度优化,不适合用于处理持续到达的动态数据。正所谓“鱼和熊掌不可兼”,想设计一个既适合流计算又适合批处理的通用平台,虽然想法很好,但是实际上是很难实现的。因此,当前业界诞生了许多专门的流数据实时计算系统来满足各自需求。

7. 列举几个常见的流计算框架。

目前有三类常见的流计算框架和平台:商业级的流计算平台、开源流计算框架、公司为支持自

  • 1
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大数据技术应用题库 单选题: 1从大量数据中提取知识的过程通常称为(A)。 a。 。 数据挖掘 b。 。 人工智能 c. . 数据清洗 d。 。 数据仓库 2下列论据中,能够支撑"大数据无所不能"的观点的是(A)。 A、互联网金融打破了传统的观念和行为 B、大数据存在泡沫 C、大数据具有非常高的成本 D、个人隐私泄露与信息安全担忧 3数据仓库的最终目的是(D)。 a。 。 收集业务需求 b。 . 建立数据仓库逻辑模型 c. . 开发数据仓库的应用分析 d. 。 为用户和业务部门提供决策支持 4大数据处理技术和传统的数据挖掘技术最大的区别是(A). a。 。 处理速度快(秒级定律) b. . 算法种类更多 c. . 精度更高 d. 。 更加智能化 5大数据的起源是(C)。 a。 . 金融 b. . 电信 c. 。 互联网 d。 . 公共管理 6大数据不是要教机器像人一样思考。相反,它是(A)。 a。 . 把数学算法运用到海量的数据上来预测事情发生的可能性 b。 . 被视为人工智能的一部 c。 . 被视为一种机器学习 d. . 预测与惩罚 7人与人之间沟通信息、传递信息的技术,这指的是(D)。 a. 。 感测技术 b。 。 微电子技术 c. 。 计算机技术 d。 . 通信技术 8数据清洗的方法不包括(D). a. . 缺失值处理 b。 . 噪声数据清除 c. 。 一致性检查 d. . 重复数据记录处理 9。 下列关于舍恩伯格对大数据特点的说法中,错误的是(D) A。 数据规模大 B. 数据类型多样 C。 数据处理速度快 D. 数据价值密度高 10规模巨大且复杂,用现有的数据处理工具难以获取、整理、管理以及处理的数据,这 指的是(D)。 a. 。 富数据 b。 . 贫数据 c. 。 繁数据 d. 。 大数据 11大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联 分析,从中发现新知识、创造新价值、提升新能力的(D)。 a. 。 新一代信息技术 b。 。 新一代服务业态 c。 . 新一代技术平台 d. . 新一代信息技术和服务业态 12万维网之父是(C) A。 彼得·德鲁克 B. 舍恩伯格 C。 蒂姆·伯纳斯—李 D. 斯科特·布朗 13下列演示方式中,不属于传统统计图方式的是(D)。 A、柱形图 B、饼状图 C、曲线图 D、网络图 14当前社会中,最为突出的大数据环境是(A)。 A、互联网 B、物联网 C、综合国力 D、自然资源 15可以对大数据进行深度分析的工具是(C). A、浅层神经网络 B、Scala C、深度学习 D、MapReduce 16大数据的起源是(C)。 A、金融 B、电信 C、互联网 D、公共管理 17智慧城市的构建,不包含(C)。 A、数字城市 B、物联网 C、联网监控 D、云计算 18大数据的4V特征中的Volume是指(D)。 A、价值密度低 B、处理速度快 C、数据类型繁多 D、数据体量巨大 19大数据的4V特征中的Variety是指(C)。 A、价值密度低 B、处理速度快 C、数据类型繁多 D、数据体量巨大 20大数据的4V特征中的Velocity是指(B)。 A、价值密度低 B、处理速度快 C、数据类型繁多 D、数据体量巨大 21下列关于大数据的分析理念的说法中,错误的是(D). A、在数据基础上倾向于全体数据而不是抽样数据 B、在分析方法上更注重相关分析而不是因果分析 C、在分析效果上更追究效率而不是绝对精确 D、在数据规模上强调相对数据而不是绝对数据 22大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进 行(B)。 A、数据信息 B、专业化处理 C、速度处理 D、内容处理 23大数据的核心就是(B)。 A、告知与许可 B、预测 C、匿名化 D、规模化 24人与人之间沟通信息、传递信息的技术,这指的是(D)。 A、感测技术 B、微电子技术 C、计算机技术 D、通信技术 25大数据的最显著特征是(A)。 A、数据规模大 B、数据类型多样 C、数据处理速度快 D、数据价值密度高 28大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联 分析,从中发现新知识、创造新价值、提升新能力的(D)。 A、新一代信息技术 B、新一代服务业态 C、新一代技术平台 D、新一代信息技术和服务业态 29 下列关于普查的缺点的说法中,正确的是(A)。 A. 工作量较大,容易导致调查内容有限、产生重复和遗漏现象 B. 误差不易被控制 C. 对样本的依赖性比较强 D。 评测结果不够稳定 30 下列关于聚类挖掘技术的说法中,错误的是(B) A不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别 B需求同类数据的内容相似度尽可能小 C要求不同类数据
系统中,HadoopMapReduce A:大数据技术原理应用第三章主要介绍了分布式文件系统和MapReduce并行计算框架中的Hadoop技术,包括Hadoop的概念、特点、架构、组件、安装、使用等方面。在分布式文件系统中,Hadoop使用HDFS作为其基础架构,实现文件存储和访问的高可用性和可扩展性,能够支持大规模数据存储和处理。而MapReduceHadoop提供的一种分布式并行计算框架,能够将大规模数据处理任务分解成多个小任务,在分布式计算环境中进行并行计算,从而提高数据处理能力和效率。 Hadoop的组件包括HDFS、YARN和MapReduce。其中,HDFS作为文件存储系统,YARN是Hadoop的资源管理框架,用于管理集群资源,对作业进行调度和监控。MapReduceHadoop的分布式计算框架,其基本思想是将计算任务分解成多个小任务,并在分布式计算环境中进行并行计算。在MapReduce执行过程中,Map函数用于将输入数据划分为若干份,并由多个Map任务同时处理,生成键值对;Reduce函数用于对Map任务生成的键值对进行汇总和统计,得到最终的结果。 Hadoop的安装和使用需要先配置环境,然后下载和安装Hadoop软件包,进行集群配置和启动,具体的安装和使用过程在第三章中有详细说明。 总结来说,Hadoop技术是大数据处理中非常重要的基础技术之一,能够支持大规模数据存储和处理,提高数据处理能力和效率。MapReduce并行计算框架是Hadoop的重要组件,能够将大规模数据处理任务分解成多个小任务,在分布式计算环境中进行并行计算
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值