高级大数据系统

1.wget命令可用于下载文件。(对)

2.more命令的-s参数可用于合并文件中的多个连续空行。(对)

3.head命令可从文件中任意一行开始读取文件。(错)

4.cat命令的那个参数可以在读取文件时将文件中的TAB字符转化成^|(A)

A -T   B  -A   C -b    D -E

判断:

5.grep 命令的-l参数可用于在查询多文件时只输出包含匹配字符的文件名

(对)

6.grep的-r参数可用于在查询多文件时,迭代的查询文件夹内的文件。(对)

7.grep的pattern 中加上$表示正则表达式从段首开始匹配。(错)

8.利用grep统计文件中不包含某一模式的文字的行数,需要用到以下哪些命令?

A -o     B  -v    C  -c    D  -i

(BC)

9.grep “line.*empty”会匹配下列哪些行(ABCD)

A this line is empty

B this line empty

C this line.empty

D this lineempty

10.grep “line.+empty “ 不会匹配下列哪一行?(D)

A this line is empty

B this line +empty

C this line.empty

11. 利用grep匹配文件中的gray 或者grey, pattern可以为(AD)

A ‘grellay’

B ‘gre|ay’

C ‘gr(e|a)y’

D ‘gray||grey’

12 awk中-F参数可用于指定分隔符,将每一行按照分隔符进行分列(A)

A 正确    B 错误

13 awk中-f参数可用于从脚本文件中读取awk命令(A)

A正确    B 错误

14. test,txt文中如下(B)  

   则cat test.txt|awk ‘{print NR,NF}’的输出为

A 正确     B 错误

15. test.txt 文件中的内容如下:(AC)

   某一命令的输出为:

则该命令可能为

A awk ‘{print $2 “\t”$A}’ test.txt |sort -k2

B  awk ‘{print$3 “\t” $A}’test.txt |sort -n-k2

C  awk ‘{print$2 “\t” $A}’test.txt |sort -n-k2

D  awk ‘{print$2 “\t” $A}’test.txt |sort -n-k1

16. 下列哪些是常用的登录服务器的工具?(AD)

A putty   B winSCP    C  sshfs     D ssh

17 下列哪些命令从头开始读取一个文件?(ABD)

A head     B more  C tail   D less

18 file命令用来确定文件的大小    (错)。

19 WC命令用来查看文本文件的单词数  (对)。

20. ls的-A参数可以用来查看文件名以.开始的隐藏文件(对)。

Running Commands on a Single Machine--作业

判断

1.设置HISTIMEFORMAT变量,如export HISTTIMEFORMAT=’%F%T’,可以在使用history 命令式同时输出时间戳 (对)。

2. !!命令可用于再次执行上一条命令(对)。

3. ?中存储了上一条命令的运行结果,?等于1表示上一条命令执行成功。(错)。

4. crontab的-l参数可用于显示某个用户的crontab文件内容(对)。

5. last命令可用于显示最近登陆过的用户 。(对)。

6. 下列哪条语句输出所有由我运行的程序的PID?(B)

A. ps aux|grep -v ‘whoami’|awk ‘{print $2}

B. ps aux|grep ‘whoami’|awk ‘{print $2}’

C. ps |grep ‘whoami’|awk ‘{print $2}’

D. ps aux|grep ‘whoami’ |awk -F ‘{print $2}’

Using a Linux Cluster -作业

1. 通过生成ssh密钥,可以不用密码登录linux服务器(对)。

2. 下列哪个工具可以在多台服务器上同时执行命令?(B)

A pscp   B. pssh   C. pslurp   D. pnuke

Storage for Big Data Computing: Distributed file systems--作业

单选

1. 下列哪些属于分布式文件系统?(D)

A HBase    B. Spark   C. MapReduce    D. KFS

判断

2. 在处理数据的能力上,分布式文件系统相比于单机最大的优点是能够并行处理数据。(对)

单选

3. 在存储文件方式上,传统文件系统和DFS:(B)

 A .两者都以文件形式存储数据

B. 前者以文件形式存储数据,后者以固定大小的块单元存储数据

C. 前者以文件形式存储数据,后者以文件和固定大小的块单元形式存储数据

D. 两者都以block或者chunk形式存储数据

File system and GFS---作业

多选

1.分布式事务处理的特性包括哪些(ABCD)

A 持久性    B.隔离性   C. 原子性    D.一致性

2. 分布式系统设计包括(ABCDE)

A 容错,design for fault

B 数据/服务可靠性

C 多数据中心的数据一致性

D 可扩展性

E 尽可能的满足ACID特性

单选

3. 下面关于GFS集群的叙述中,正确是(C)

A. GFS所有的元数据都存放在chunkserver上

B. GFS所有的元数据都是放在硬盘上的

C. 一个GFS集群包括一个master 和大量chunkserver

D. 其他选项均不正确

判断

GFS中,客户与master 的交换只限于对元数据的操作,所有数据方面的通信都直接和

chunkserver 联系。 (对)。

Understanding HDFS using Legos--作业

多选

1.关于HDFS,下面说法正确的是:(Acde)

A. HDFS中的文件以块序列的形式存储

B. 存储的文件块都有相同的大小

C. 文件块为了故障容错而被复制

D. HDFS中的文件是一次写的

E. 名字节点周期性地接受集群中数据节点的心跳和块报告,一个心跳的到达表示这个数据节点是正常的。

判断

.HDFS适用于要求低延时访问的应用程序。(错)

多选

HDFS中一个文件备份在多个位置的好处有哪些?

A改善服务的伸缩性

B 提高了容错能力

C 保证文件的完整性

D 保证文件的透明性

4. 对于HDFS中的名字节点,下面说法正确的是:

A 文件被分割成一个或多个块,被存储在一组名字节点中

B 名字节点可以对命名空间的文件或目录操作,如打开,关闭,重命名等

C. 名字节点可以处理来自文件系统客户对读写请求,以及执行块的创建,删除等操作

D. 名字节点可以确定块与数据节点等映射

File System Implementation and DFS-作业

判断

1. HDFS中典型的块大小是64MB,一个HDFS文件可以被切分成多个64MB大小的块,如果需要,每一个块可以分布在不同数据节点上。(对)

单选

2. 以下关于HDFS叙述错误的是?

A. 一个客户端创建一个文件的请求会立即转发到名字节点。

B. 当本地文件堆积到一个HDFS块大小的时候,客户端才会通知名字节点。

C. 名字节点构造包括数据节点ID和目标数据块标识的报文,用它回复客户端的请求。

D. 当文件关闭时,本地临时文件中未上传的残留数据就会被传送大宋数据节点。

单选

3.当Job Tracker宕掉时,Namenode会发生什么?

A. 当Job Tracker失败时候,集群也随之宕机

B. 当Job Tracker失败时,集群仍然可以正常工作,只要Namenode没问题。

C. 当Job Tracker 失败时,集群始终不会受到影响。

多选

4.Hadoop集群可以运行的几个模式有:(ABC)

A 单机(本地)模式

B 伪分布式模式

C 全分布式模式

5. jps 命令的用处?

A 检查Namenode是否正常工作

B. 检查Datanode是否正常工作

C. 检查Task Tracker是否正常工作

D. 检查Job Tracker 是否正常工作

What is MapReduce and why

判断题

jobtracker和tasktracker都可以管理整个系统内的任务。()。

2. mapreduce系统中如节点故障、网络不通的问题都可以由系统自动管理。()。

3.数据读入在mapreduce 的哪个阶段产生?(A)

A Map    B Reduce

Processing pattern --作业

1.Map阶段生成的结果通过网络直接传输给reduce节点。()。

2.通过自定义partition过程,用户可以自定义每个key将被分配到的reducer。()。

3.具有同一个key的key/value对可能被分配到不同的reduce上

Hadoop-作业

判断

1. Map,Partition和Reduce阶段都存在对Local Storage的读写。()。

2. Fair Scheduling对小任务更公平。  ()

3. MapReduce处理的数据通常只存储在一台服务器上。()。

Algorithms in MapReduce-作业

判断

1.MapReduce中search 任务可以只用map实现。()。

2.统计最流行的单词时候,可以通过提前去除出现频率低的单词,来提高程序效率。()。

3.利用Partition行数,Map和Reduce阶段不做任何操作即可实现排序功能。()。

4.通过串联多个MapReduce过程,可以实现复杂的数据处理功能。()。

Background --作业

多选

1.Spark的核心API支持下列哪几种语言(A,D,E)

A. Java   B C/C++   D Ruby   D Scala   E Python

2. Spark生态体系中,包括以下哪几种计算框架(ACD)

A. Streaming      B. Storm    C. MLib    D. Graphx

3. Spark 运行在现有的分布式文件系统(HDFS)之上。()。

A. Spark大部分是用那种语言编写的。(A,C)

A. Scala    B.C++    C. Java     D C

Spark --作业

判断

1. Spark一切都以Resilient Distributed Dataset(RDD)为基础。()。

2. 弹性数据集(RDD)的transformation操作表示对数据集的操作延迟执行,而Action操作表示执行对数据集的操作。      ()。

多选

3.弹性数据集(RDD)可以从下列哪些对象转换过来?

A.其他RDD转换而来

B.Linux 单机文件系统中的数据

C.HDFS中存储的数据集

D.Hbase中的数据

A. RDD cache 默认的存储级别(StorageLeve)是什么

A.MYMORY_AND_DISK

B. MEMORY_ONLY
C. MEMORY_ONLY_SER
D. DISK_ONLY

Use Spark for data mining -作业

多选

1.以下针对RDD的操作中,属于Transformation的操作有哪些?

A map()

B Filter()

C count()

D union ()

2. 以下针对RDD的操作中,属于Action的操作有哪些?

A collect()

B reduce()

C save()

D cogroup()

3. 下列哪些模式可以运行Spark?(ABCD)

A Local

B Standalone

C Mesos

D YARN

Spark data processing -作业

判断

1. 在Spark的运行架构中,一个Job包含多个Task(被送到executor上的工作单元)组成的并向计算,往往由Transformation 产生。()。

多选

2. 在Spark的任务处理中,Master节点充当哪些角色

A.任务和资源调度

B.节点管理

C.执行Executor 进程

D. RDD graph

单选题

3.Spark运行任务过程中的Stage是由下列哪个过程产生的?(B)

A RDD Objects

B DAGScheduler

C TaskScheduler

D Worker

Experiment in Spark -作业

判断

1.在Spark计算的过程中,可以直接使用Local files 和DFS files作为数据源来生成原始RDD。()。

Introduction to streaming data processing -作业

多选题

1.哪些是流式数据处理的特征?(ABC)

A 秒级延迟

B 输入是流式数据源

C 整合了batch和interactive 操作

2. 哪些应用需要用到streaming data processing ?

A 社交媒体

B Web data

C 入侵检测数据

Storm-作业

判断

Storm中的Bolt既可以处理收到的Tuples,也可以创建新的Tuples流。()。

多选

哪些是Apache Storm提供的默认系统管道(system pipelines)?

A. AlertPipeline

B. ErrorSearchPipeline

C. GraphiteWriterPipeline

D.MonitorMetricPipeline

E.SelfTestPipeline

Spark streaming --作业

判断

1.Data Pipeline 允许超级用户部署,启动,停止以及编辑预定义的系统管道。()。

2.如果nodes失效,那么storm和spark streaming 在处理数据时都会丢失状态信息。()。

NoSQL introduction--作业

多选

1.目前世界上主流的存储系统大部分还是采用了关系型数据库,关系型数据库的主要优点是

(ACD)

A 事务处理上能够保持数据的一致性

B 读写块且成本低

C 数据更新的开销很小

D 可以进行Join等复杂的查询

2. “NoSQL”系列数据库与传统的关系型数据库相比,优点有哪些

A 支持事务性操作

B Scale特性,支持简单的扩展

C 快速的读写

D 低廉的成本

判断

3. 关系型数据库所使用的定义严格、基于模式的方法是无法快速容纳新的数据类型的,

对于非结构化或者是半结构化的数据更是无能为力。而NoSQL提供的数据模型则能够很好

地处理非结构化/半结构化数据。 ()。

A. 由于NoSQL数据库是分布式,水平扩展的,非常容易实现动态的可伸缩性。()。

Common Advantages --作业

多选题

1. 在下列哪些生产环境的需求驱动下,使用”NoSQL”系列数据库比较合适

(ABCD)

A 数据库表schema经常变化

B. 数据库表字段是复杂数据类型

C. 高并发数据库请求

D. 海量数据的分布式存储

2. “NoSQL”系列的数据库根据数据的存储模型和特点可以分为很多类,其中属于

“key-value”存储类型的是(ABCD)

A. Berkeley DB     

B. Memcache DB

C. Redis

D. Tokyo Cabinet/Tyrant

3. 属于图存储类型的“NoSQL”数据库有哪些(AB)

A NeoAJ

B.MongoDB

C. FlockDB

D. dbAo

Bigtable-作业

判断

1.BigTable是一个大规模管理半结构化/非结构化而设计的分布式存储系统,可以扩展到PB级数据和上千台服务器。()。

2. BigTable的时间戳是第一级索引。()。

单选:

如图所示,我查询“thu/”cs:foo”/8 ,返回的值是多少

table{

  thu”:{

   “cs:foo”:{

15:”y”,

 4:”m”

},

“ee:bar”:{

  15:”d”,

 },

 “soft:zoo”:{

   6:”w”

   3:”o”

   1:”w”

 }

},

}

A  m   

B  y

C  d

d  w

Master Startup--作业

判断

1.BigTable依赖于Google的几项技术,用GFS来存储日志和数据文件;按SSTable文件

格式存储数据;用Chubby管理元数据, ()。

2. 单选

Chubby 是一种高可用的分布式锁服务,Chubby有几个活跃副本,同时有几个副本提供

服务。(B)

A 62     B 51    C 31   D 21

判断

3 Bigtable 集群包括三个主要部分:一个供客户端使用的库,一个主服务器

(master server),许多片服务器(tablet server)。客户端需要读写数据时,直接

与片服务器联系。 ()。

单选题

下列哪个不属于HBase的特点(B)

A. 构建在HDFS上的分布式存储系统;

B. 典型的文档存储的数据块系统

C. Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储

D. HBase将数据按照表,行和列进行存储

E. Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和

存储能力。

判断

HBase为每个值维护了多级索引,即:<key, column family, column name ,timestamp>

()。

What is GraphDB and Graph data processing ---作业

判断

1. GraphDB的特性是对关系进行操作。()。

多选

2. 以下哪些场景或系统中的数据可以构成graph?

A Internet

B Web

C.社交网络

D.推荐系统

Graph systems

判断

1. 在Graph并行系统中,一个结点的值只受相邻结点的影响,因此可以根据局部值就可以做更新。()。

Example of a GraphDB-作业

判断

1.GraphLab通过对节点和边进行划分,然后通过对节点进行update,来进行原子化操作,

从而达到对图进行分布式处理的目标。()。

Mahout --作业

多选

下列哪些是聚类算法?(AD)

A K-means

B 神经网络

C K-medoids

D DBScan

E KNN

F Decission Tree

Case Study :Recommendatio 作业

单选

1. 用户的评价如下,根据slope one算法,计算John对itemA的评价为:

         item A   itemB

   Leo     5        3

  Marria    3       4

  John     ?   3.5

A 3    B  3.5    C  4    D  4.33

Recommendation in Mahout-作业

多选

下列哪些是mahout中的java接口?

A UserSimilarity interface

B NeighborhoodSimilarity interfece

C DataModel interface

D. DataAbstraction interface

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值