大数据采集第一章课后习题

你搭建web服务器,建了一个网站。服务器的日志文件自动记录了每一个访问的IP地址等信息。现在要对这些信息进行收集,属于

  • A、

    数据采集

  • B、

    数据清洗

  • C、

    数据存储

  • D、

    数据挖掘

正确答案: A 

2

你想做一个项目,收集某房产网站上的租房信息,这种数据采集属于

  • A、

    系统日志采集

  • B、

    应用程序日志采集

  • C、

    互联网信息采集

  • D、

    用户操作信息采集

正确答案: C 

3

某单位的数据库中,关于“性别”的信息有多重表达样式,比如“男”,“女”,“Man”,“Women”,对这些信息的规范化,属于

  • A、

    数据采集

  • B、

    数据预处理

  • C、

    数据挖掘

  • D、

    机器学习

正确答案: B 

4

将多源数据(比如不同种类的数据库,文件等),组成统一视图,属于

  • A、

    数据清洗

  • B、

    数据集成

  • C、

    数据挖掘

  • D、

    数据归约

正确答案: B

5

将某些数据改为布尔型的数据,属于

  • A、

    数据采集

  • B、

    数据变换

  • C、

    数据归约

  • D、

    数据显示

正确答案: B 

6

对于学生有100个属性可以描述,但是起主要区分作用的就没几个,想办法对100个属性进行删减,这种操作属于

  • A、

    数据采集

  • B、

    数据集成

  • C、

    数据归约

  • D、

    数据挖掘

正确答案: C 

7

啤酒和尿布的示例,是一种

  • A、

    数据采集

  • B、

    数据清洗

  • C、

    数据挖掘

  • D、

    数据归约

正确答案: C

8

以上操作属于

  • A、

    数据采集

  • B、

    数据变换

  • C、

    数据分析

  • D、

    数据展示

正确答案: B 

9

以下概念哪个可以衡量数据的离散程度

  • A、

    均值

  • B、

    方差或者标准差

  • C、

    数据类型

正确答案: B 

二.多选题(共11题,41.8分)

1

给数据带来前所有未增长和积累的应用有

  • A、

    云计算、透明计算和物联网等技术的兴起

  • B、

    社会网络

  • C、

    移动支付

  • D、

    LBS(基于位置的服务)

正确答案: ABCD

2

大规模数据来源的应用场景有

  • A、

    拍照,拍视频,发微博,发微信

  • B、

    遍布各个角落的传感器收集的数据

  • C、

    各行各业自身数据,如医疗行业的病例、病理报告、治愈方案、药物报告等

  • D、

    根据新摩尔定律,每隔12个月就翻一番

正确答案: ABC 

3

下列说法正确的是

  • A、

    大数据适合采集到关系数据库进行分析

  • B、

    大数据包括了大量的非结构化数据和半结构化数据,当然,也包括结构化数据

  • C、

    大数据采集可使用常规软件

  • D、

    大数据采集和预处理需要新的处理模式

正确答案: BD 

4

下列说法正确的是

  • A、

    大数据即大规模数据、海量数据,这些概念实质等效

  • B、

    大数据这个概念包括了对数据对象的处理行为

  • C、

    挖掘大数据中的价值,需要综合运用灵活的,多学科的方法

  • D、

    根据大数据概念含义,大数据采集不是一般的、常规的数据采集。

正确答案: BCD

5

大数据处理过程有

  • A、

    数据生产

  • B、

    数据采集

  • C、

    数据预处理

  • D、

    数据存储

  • E、

    数据分析与挖掘

  • F、

    数据可视化

  • G、

    基于大数据的运营

正确答案: BCDEF 

6

属于数据采集范畴的有

  • A、

    系统日志采集

  • B、

    互联网数据采集

  • C、

    ETL采集

  • D、

    NoSQL

正确答案: ABC 

7

关于下面信息,说法正确的是

10.6.251.20 - - [24/Apr/2021:17:02:17 +0800] "GET / HTTP/1.1" 200 3594 "-" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36"

  • A、

    这是结构化数据

  • B、

    这是一条日志

  • C、

    此类信息在日志文件中记载,无法采集到大数据平台

  • D、

    大数据采集技术可解决此类信息的采集

正确答案: BD 

8

基于分布式架构的数据采集方法和传统数据采集方法相比,具有的特点是

  • A、

    更高的数据访问速度

  • B、

    更强的扩展性

  • C、

    更高的并发量

  • D、

    更简易的采集过程

正确答案: ABC 

9

关于数据预处理,下列说法正确的是

  • A、

    采集到的原始数据大多数能够直接用于后续的数据分析和挖掘

  • B、

    原始数据通常存在杂乱性

  • C、

    原始数据通常存在重复性

  • D、

    原始数据通常存在不完整性

正确答案: BCD 

10

常用的数据预处理技术包括

  • A、

    数据清理

  • B、

    数据集成

  • C、

    数据变换

  • D、

    数据归约

正确答案: ABCD

11

阅读以下文献资料摘要,以了解大数据采集与预处理技术现状和发展趋势,并指出下列说法正确的是

  • A、

    大数据采集技术和机器学习技术关系比较密切

  • B、

    深度学习需要大量数据

  • C、

    带标签的数据和不带标签的数据对深度学习来讲都是同等重要的

  • D、

    将数据收集(Data Collection)中的数据管理和机器学习进行整合是一个趋势

正确答案: ABD 

三.判断题(共6题,24.0分)

1

自己写在代码里的日志信息,也可以作为日志进行采集。

正确答案:

2

防火墙的日志信息,系统日志,网络日志都可以进行自动化的数据采集。

正确答案:

3

爬虫程序用于爬取系统日志,而非互联网站上的信息。

正确答案:×

4

日志可以用于资源监控,以了解系统中各种资源的占有情况。

正确答案:

5

系统日志可以用于审计,以监控非授权行为。

我的答案: 得分: 3.8分

6

日志可以用于对不安全行为造成的损失的评估。

正确答案:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值