1.wget命令可用于下载文件。(对)
2.more命令的-s参数可用于合并文件中的多个连续空行。(对)
3.head命令可从文件中任意一行开始读取文件。(错)
4.cat命令的那个参数可以在读取文件时将文件中的TAB字符转化成^|(A)
A -T B -A C -b D -E
判断:
5.grep 命令的-l参数可用于在查询多文件时只输出包含匹配字符的文件名
(对)
6.grep的-r参数可用于在查询多文件时,迭代的查询文件夹内的文件。(对)
7.grep的pattern 中加上$表示正则表达式从段首开始匹配。(错)
8.利用grep统计文件中不包含某一模式的文字的行数,需要用到以下哪些命令?
A -o B -v C -c D -i
(BC)
9.grep “line.*empty”会匹配下列哪些行(ABCD)
A this line is empty
B this line empty
C this line.empty
D this lineempty
10.grep “line.+empty “ 不会匹配下列哪一行?(D)
A this line is empty
B this line +empty
C this line.empty
11. 利用grep匹配文件中的gray 或者grey, pattern可以为(AD)
A ‘grellay’
B ‘gre|ay’
C ‘gr(e|a)y’
D ‘gray||grey’
12 awk中-F参数可用于指定分隔符,将每一行按照分隔符进行分列(A)
A 正确 B 错误
13 awk中-f参数可用于从脚本文件中读取awk命令(A)
A正确 B 错误
14. test,txt文中如下(B)
则cat test.txt|awk ‘{print NR,NF}’的输出为
A 正确 B 错误
15. test.txt 文件中的内容如下:(AC)
某一命令的输出为:
则该命令可能为
A awk ‘{print $2 “\t”$A}’ test.txt |sort -k2
B awk ‘{print$3 “\t” $A}’test.txt |sort -n-k2
C awk ‘{print$2 “\t” $A}’test.txt |sort -n-k2
D awk ‘{print$2 “\t” $A}’test.txt |sort -n-k1
16. 下列哪些是常用的登录服务器的工具?(AD)
A putty B winSCP C sshfs D ssh
17 下列哪些命令从头开始读取一个文件?(ABD)
A head B more C tail D less
18 file命令用来确定文件的大小 (错)。
19 WC命令用来查看文本文件的单词数 (对)。
20. ls的-A参数可以用来查看文件名以.开始的隐藏文件(对)。
Running Commands on a Single Machine--作业
判断
1.设置HISTIMEFORMAT变量,如export HISTTIMEFORMAT=’%F%T’,可以在使用history 命令式同时输出时间戳 (对)。
2. !!命令可用于再次执行上一条命令(对)。
3. ?中存储了上一条命令的运行结果,?等于1表示上一条命令执行成功。(错)。
4. crontab的-l参数可用于显示某个用户的crontab文件内容(对)。
5. last命令可用于显示最近登陆过的用户 。(对)。
6. 下列哪条语句输出所有由我运行的程序的PID?(B)
A. ps aux|grep -v ‘whoami’|awk ‘{print $2}
B. ps aux|grep ‘whoami’|awk ‘{print $2}’
C. ps |grep ‘whoami’|awk ‘{print $2}’
D. ps aux|grep ‘whoami’ |awk -F ‘{print $2}’
Using a Linux Cluster -作业
1. 通过生成ssh密钥,可以不用密码登录linux服务器(对)。
2. 下列哪个工具可以在多台服务器上同时执行命令?(B)
A pscp B. pssh C. pslurp D. pnuke
Storage for Big Data Computing: Distributed file systems--作业
单选
1. 下列哪些属于分布式文件系统?(D)
A HBase B. Spark C. MapReduce D. KFS
判断
2. 在处理数据的能力上,分布式文件系统相比于单机最大的优点是能够并行处理数据。(对)
单选
3. 在存储文件方式上,传统文件系统和DFS:(B)
A .两者都以文件形式存储数据
B. 前者以文件形式存储数据,后者以固定大小的块单元存储数据
C. 前者以文件形式存储数据,后者以文件和固定大小的块单元形式存储数据
D. 两者都以block或者chunk形式存储数据
File system and GFS---作业
多选
1.分布式事务处理的特性包括哪些(ABCD)
A 持久性 B.隔离性 C. 原子性 D.一致性
2. 分布式系统设计包括(ABCDE)
A 容错,design for fault
B 数据/服务可靠性
C 多数据中心的数据一致性
D 可扩展性
E 尽可能的满足ACID特性
单选
3. 下面关于GFS集群的叙述中,正确是(C)
A. GFS所有的元数据都存放在chunkserver上
B. GFS所有的元数据都是放在硬盘上的
C. 一个GFS集群包括一个master 和大量chunkserver
D. 其他选项均不正确
判断
GFS中,客户与master 的交换只限于对元数据的操作,所有数据方面的通信都直接和
chunkserver 联系。 (对)。
Understanding HDFS using Legos--作业
多选
1.关于HDFS,下面说法正确的是:(Acde)
A. HDFS中的文件以块序列的形式存储
B. 存储的文件块都有相同的大小
C. 文件块为了故障容错而被复制
D. HDFS中的文件是一次写的
E. 名字节点周期性地接受集群中数据节点的心跳和块报告,一个心跳的到达表示这个数据节点是正常的。
判断
.HDFS适用于要求低延时访问的应用程序。(错)
多选
HDFS中一个文件备份在多个位置的好处有哪些?
A改善服务的伸缩性
B 提高了容错能力
C 保证文件的完整性
D 保证文件的透明性
4. 对于HDFS中的名字节点,下面说法正确的是:
A 文件被分割成一个或多个块,被存储在一组名字节点中
B 名字节点可以对命名空间的文件或目录操作,如打开,关闭,重命名等
C. 名字节点可以处理来自文件系统客户对读写请求,以及执行块的创建,删除等操作
D. 名字节点可以确定块与数据节点等映射
File System Implementation and DFS-作业
判断
1. HDFS中典型的块大小是64MB,一个HDFS文件可以被切分成多个64MB大小的块,如果需要,每一个块可以分布在不同数据节点上。(对)
单选
2. 以下关于HDFS叙述错误的是?
A. 一个客户端创建一个文件的请求会立即转发到名字节点。
B. 当本地文件堆积到一个HDFS块大小的时候,客户端才会通知名字节点。
C. 名字节点构造包括数据节点ID和目标数据块标识的报文,用它回复客户端的请求。
D. 当文件关闭时,本地临时文件中未上传的残留数据就会被传送大宋数据节点。
单选
3.当Job Tracker宕掉时,Namenode会发生什么?
A. 当Job Tracker失败时候,集群也随之宕机
B. 当Job Tracker失败时,集群仍然可以正常工作,只要Namenode没问题。
C. 当Job Tracker 失败时,集群始终不会受到影响。
多选
4.Hadoop集群可以运行的几个模式有:(ABC)
A 单机(本地)模式
B 伪分布式模式
C 全分布式模式
5. jps 命令的用处?
A 检查Namenode是否正常工作
B. 检查Datanode是否正常工作
C. 检查Task Tracker是否正常工作
D. 检查Job Tracker 是否正常工作
What is MapReduce and why
判断题
jobtracker和tasktracker都可以管理整个系统内的任务。()。
2. mapreduce系统中如节点故障、网络不通的问题都可以由系统自动管理。()。
3.数据读入在mapreduce 的哪个阶段产生?(A)
A Map B Reduce
Processing pattern --作业
1.Map阶段生成的结果通过网络直接传输给reduce节点。()。
2.通过自定义partition过程,用户可以自定义每个key将被分配到的reducer。()。
3.具有同一个key的key/value对可能被分配到不同的reduce上
Hadoop-作业
判断
1. Map,Partition和Reduce阶段都存在对Local Storage的读写。()。
2. Fair Scheduling对小任务更公平。 ()
3. MapReduce处理的数据通常只存储在一台服务器上。()。
Algorithms in MapReduce-作业
判断
1.MapReduce中search 任务可以只用map实现。()。
2.统计最流行的单词时候,可以通过提前去除出现频率低的单词,来提高程序效率。()。
3.利用Partition行数,Map和Reduce阶段不做任何操作即可实现排序功能。()。
4.通过串联多个MapReduce过程,可以实现复杂的数据处理功能。()。
Background --作业
多选
1.Spark的核心API支持下列哪几种语言(A,D,E)
A. Java B C/C++ D Ruby D Scala E Python
2. Spark生态体系中,包括以下哪几种计算框架(ACD)
A. Streaming B. Storm C. MLib D. Graphx
3. Spark 运行在现有的分布式文件系统(HDFS)之上。()。
A. Spark大部分是用那种语言编写的。(A,C)
A. Scala B.C++ C. Java D C
Spark --作业
判断
1. Spark一切都以Resilient Distributed Dataset(RDD)为基础。()。
2. 弹性数据集(RDD)的transformation操作表示对数据集的操作延迟执行,而Action操作表示执行对数据集的操作。 ()。
多选
3.弹性数据集(RDD)可以从下列哪些对象转换过来?
A.其他RDD转换而来
B.Linux 单机文件系统中的数据
C.HDFS中存储的数据集
D.Hbase中的数据
A. RDD cache 默认的存储级别(StorageLeve)是什么
A.MYMORY_AND_DISK
B. MEMORY_ONLY
C. MEMORY_ONLY_SER
D. DISK_ONLY
Use Spark for data mining -作业
多选
1.以下针对RDD的操作中,属于Transformation的操作有哪些?
A map()
B Filter()
C count()
D union ()
2. 以下针对RDD的操作中,属于Action的操作有哪些?
A collect()
B reduce()
C save()
D cogroup()
3. 下列哪些模式可以运行Spark?(ABCD)
A Local
B Standalone
C Mesos
D YARN
Spark data processing -作业
判断
1. 在Spark的运行架构中,一个Job包含多个Task(被送到executor上的工作单元)组成的并向计算,往往由Transformation 产生。()。
多选
2. 在Spark的任务处理中,Master节点充当哪些角色
A.任务和资源调度
B.节点管理
C.执行Executor 进程
D. RDD graph
单选题
3.Spark运行任务过程中的Stage是由下列哪个过程产生的?(B)
A RDD Objects
B DAGScheduler
C TaskScheduler
D Worker
Experiment in Spark -作业
判断
1.在Spark计算的过程中,可以直接使用Local files 和DFS files作为数据源来生成原始RDD。()。
Introduction to streaming data processing -作业
多选题
1.哪些是流式数据处理的特征?(ABC)
A 秒级延迟
B 输入是流式数据源
C 整合了batch和interactive 操作
2. 哪些应用需要用到streaming data processing ?
A 社交媒体
B Web data
C 入侵检测数据
Storm-作业
判断
Storm中的Bolt既可以处理收到的Tuples,也可以创建新的Tuples流。()。
多选
哪些是Apache Storm提供的默认系统管道(system pipelines)?
A. AlertPipeline
B. ErrorSearchPipeline
C. GraphiteWriterPipeline
D.MonitorMetricPipeline
E.SelfTestPipeline
Spark streaming --作业
判断
1.Data Pipeline 允许超级用户部署,启动,停止以及编辑预定义的系统管道。()。
2.如果nodes失效,那么storm和spark streaming 在处理数据时都会丢失状态信息。()。
NoSQL introduction--作业
多选
1.目前世界上主流的存储系统大部分还是采用了关系型数据库,关系型数据库的主要优点是
(ACD)
A 事务处理上能够保持数据的一致性
B 读写块且成本低
C 数据更新的开销很小
D 可以进行Join等复杂的查询
2. “NoSQL”系列数据库与传统的关系型数据库相比,优点有哪些
A 支持事务性操作
B Scale特性,支持简单的扩展
C 快速的读写
D 低廉的成本
判断
3. 关系型数据库所使用的定义严格、基于模式的方法是无法快速容纳新的数据类型的,
对于非结构化或者是半结构化的数据更是无能为力。而NoSQL提供的数据模型则能够很好
地处理非结构化/半结构化数据。 ()。
A. 由于NoSQL数据库是分布式,水平扩展的,非常容易实现动态的可伸缩性。()。
Common Advantages --作业
多选题
1. 在下列哪些生产环境的需求驱动下,使用”NoSQL”系列数据库比较合适
(ABCD)
A 数据库表schema经常变化
B. 数据库表字段是复杂数据类型
C. 高并发数据库请求
D. 海量数据的分布式存储
2. “NoSQL”系列的数据库根据数据的存储模型和特点可以分为很多类,其中属于
“key-value”存储类型的是(ABCD)
A. Berkeley DB
B. Memcache DB
C. Redis
D. Tokyo Cabinet/Tyrant
3. 属于图存储类型的“NoSQL”数据库有哪些(AB)
A NeoAJ
B.MongoDB
C. FlockDB
D. dbAo
Bigtable-作业
判断
1.BigTable是一个大规模管理半结构化/非结构化而设计的分布式存储系统,可以扩展到PB级数据和上千台服务器。()。
2. BigTable的时间戳是第一级索引。()。
单选:
如图所示,我查询“thu/”cs:foo”/8 ,返回的值是多少
table{
thu”:{
“cs:foo”:{
15:”y”,
4:”m”
},
“ee:bar”:{
15:”d”,
},
“soft:zoo”:{
6:”w”
3:”o”
1:”w”
}
},
}
A m
B y
C d
d w
Master Startup--作业
判断
1.BigTable依赖于Google的几项技术,用GFS来存储日志和数据文件;按SSTable文件
格式存储数据;用Chubby管理元数据, ()。
2. 单选
Chubby 是一种高可用的分布式锁服务,Chubby有几个活跃副本,同时有几个副本提供
服务。(B)
A 62 B 51 C 31 D 21
判断
3 Bigtable 集群包括三个主要部分:一个供客户端使用的库,一个主服务器
(master server),许多片服务器(tablet server)。客户端需要读写数据时,直接
与片服务器联系。 ()。
单选题
下列哪个不属于HBase的特点(B)
A. 构建在HDFS上的分布式存储系统;
B. 典型的文档存储的数据块系统
C. Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储
D. HBase将数据按照表,行和列进行存储
E. Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和
存储能力。
判断
HBase为每个值维护了多级索引,即:<key, column family, column name ,timestamp>
()。
What is GraphDB and Graph data processing ---作业
判断
1. GraphDB的特性是对关系进行操作。()。
多选
2. 以下哪些场景或系统中的数据可以构成graph?
A Internet
B Web
C.社交网络
D.推荐系统
Graph systems
判断
1. 在Graph并行系统中,一个结点的值只受相邻结点的影响,因此可以根据局部值就可以做更新。()。
Example of a GraphDB-作业
判断
1.GraphLab通过对节点和边进行划分,然后通过对节点进行update,来进行原子化操作,
从而达到对图进行分布式处理的目标。()。
Mahout --作业
多选
下列哪些是聚类算法?(AD)
A K-means
B 神经网络
C K-medoids
D DBScan
E KNN
F Decission Tree
Case Study :Recommendatio 作业
单选
1. 用户的评价如下,根据slope one算法,计算John对itemA的评价为:
item A itemB
Leo 5 3
Marria 3 4
John ? 3.5
A 3 B 3.5 C 4 D 4.33
Recommendation in Mahout-作业
多选
下列哪些是mahout中的java接口?
A UserSimilarity interface
B NeighborhoodSimilarity interfece
C DataModel interface
D. DataAbstraction interface