你搭建web服务器,建了一个网站。服务器的日志文件自动记录了每一个访问的IP地址等信息。现在要对这些信息进行收集,属于
- A、
数据采集
- B、
数据清洗
- C、
数据存储
- D、
数据挖掘
正确答案: A
2
你想做一个项目,收集某房产网站上的租房信息,这种数据采集属于
- A、
系统日志采集
- B、
应用程序日志采集
- C、
互联网信息采集
- D、
用户操作信息采集
正确答案: C
3
某单位的数据库中,关于“性别”的信息有多重表达样式,比如“男”,“女”,“Man”,“Women”,对这些信息的规范化,属于
- A、
数据采集
- B、
数据预处理
- C、
数据挖掘
- D、
机器学习
正确答案: B
4
将多源数据(比如不同种类的数据库,文件等),组成统一视图,属于
- A、
数据清洗
- B、
数据集成
- C、
数据挖掘
- D、
数据归约
正确答案: B
5
将某些数据改为布尔型的数据,属于
- A、
数据采集
- B、
数据变换
- C、
数据归约
- D、
数据显示
正确答案: B
6
对于学生有100个属性可以描述,但是起主要区分作用的就没几个,想办法对100个属性进行删减,这种操作属于
- A、
数据采集
- B、
数据集成
- C、
数据归约
- D、
数据挖掘
正确答案: C
7
啤酒和尿布的示例,是一种
- A、
数据采集
- B、
数据清洗
- C、
数据挖掘
- D、
数据归约
正确答案: C
8
以上操作属于
- A、
数据采集
- B、
数据变换
- C、
数据分析
- D、
数据展示
正确答案: B
9
以下概念哪个可以衡量数据的离散程度
- A、
均值
- B、
方差或者标准差
- C、
数据类型
正确答案: B
二.多选题(共11题,41.8分)
1
给数据带来前所有未增长和积累的应用有
- A、
云计算、透明计算和物联网等技术的兴起
- B、
社会网络
- C、
移动支付
- D、
LBS(基于位置的服务)
正确答案: ABCD
2
大规模数据来源的应用场景有
- A、
拍照,拍视频,发微博,发微信
- B、
遍布各个角落的传感器收集的数据
- C、
各行各业自身数据,如医疗行业的病例、病理报告、治愈方案、药物报告等
- D、
根据新摩尔定律,每隔12个月就翻一番
正确答案: ABC
3
下列说法正确的是
- A、
大数据适合采集到关系数据库进行分析
- B、
大数据包括了大量的非结构化数据和半结构化数据,当然,也包括结构化数据
- C、
大数据采集可使用常规软件
- D、
大数据采集和预处理需要新的处理模式
正确答案: BD
4
下列说法正确的是
- A、
大数据即大规模数据、海量数据,这些概念实质等效
- B、
大数据这个概念包括了对数据对象的处理行为
- C、
挖掘大数据中的价值,需要综合运用灵活的,多学科的方法
- D、
根据大数据概念含义,大数据采集不是一般的、常规的数据采集。
正确答案: BCD
5
大数据处理过程有
- A、
数据生产
- B、
数据采集
- C、
数据预处理
- D、
数据存储
- E、
数据分析与挖掘
- F、
数据可视化
- G、
基于大数据的运营
正确答案: BCDEF
6
属于数据采集范畴的有
- A、
系统日志采集
- B、
互联网数据采集
- C、
ETL采集
- D、
NoSQL
正确答案: ABC
7
关于下面信息,说法正确的是
10.6.251.20 - - [24/Apr/2021:17:02:17 +0800] "GET / HTTP/1.1" 200 3594 "-" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36"
- A、
这是结构化数据
- B、
这是一条日志
- C、
此类信息在日志文件中记载,无法采集到大数据平台
- D、
大数据采集技术可解决此类信息的采集
正确答案: BD
8
基于分布式架构的数据采集方法和传统数据采集方法相比,具有的特点是
- A、
更高的数据访问速度
- B、
更强的扩展性
- C、
更高的并发量
- D、
更简易的采集过程
正确答案: ABC
9
关于数据预处理,下列说法正确的是
- A、
采集到的原始数据大多数能够直接用于后续的数据分析和挖掘
- B、
原始数据通常存在杂乱性
- C、
原始数据通常存在重复性
- D、
原始数据通常存在不完整性
正确答案: BCD
10
常用的数据预处理技术包括
- A、
数据清理
- B、
数据集成
- C、
数据变换
- D、
数据归约
正确答案: ABCD
11
阅读以下文献资料摘要,以了解大数据采集与预处理技术现状和发展趋势,并指出下列说法正确的是
- A、
大数据采集技术和机器学习技术关系比较密切
- B、
深度学习需要大量数据
- C、
带标签的数据和不带标签的数据对深度学习来讲都是同等重要的
- D、
将数据收集(Data Collection)中的数据管理和机器学习进行整合是一个趋势
正确答案: ABD
三.判断题(共6题,24.0分)
1
自己写在代码里的日志信息,也可以作为日志进行采集。
正确答案:√
2
防火墙的日志信息,系统日志,网络日志都可以进行自动化的数据采集。
正确答案:√
3
爬虫程序用于爬取系统日志,而非互联网站上的信息。
正确答案:×
4
日志可以用于资源监控,以了解系统中各种资源的占有情况。
正确答案:√
5
系统日志可以用于审计,以监控非授权行为。
我的答案:√ 得分: 3.8分
6
日志可以用于对不安全行为造成的损失的评估。
正确答案:√