高级大数据系统

最新推荐文章于 2023-11-25 04:46:20 发布

zhaohong1218_

最新推荐文章于 2023-11-25 04:46:20 发布

阅读量623

点赞数 2

文章标签：数据库

本文链接：https://blog.csdn.net/zhaohong1218_/article/details/130494690

版权

1.wget命令可用于下载文件。（对）

2.more命令的-s参数可用于合并文件中的多个连续空行。（对）

3.head命令可从文件中任意一行开始读取文件。（错）

4.cat命令的那个参数可以在读取文件时将文件中的TAB字符转化成^|(A)

A -T B -A C -b D -E

判断：

5.grep 命令的-l参数可用于在查询多文件时只输出包含匹配字符的文件名

（对）

6.grep的-r参数可用于在查询多文件时，迭代的查询文件夹内的文件。（对）

7.grep的pattern 中加上$表示正则表达式从段首开始匹配。（错）

8.利用grep统计文件中不包含某一模式的文字的行数，需要用到以下哪些命令？

A -o B -v C -c D -i

(BC)

9.grep “line.*empty”会匹配下列哪些行(ABCD)

A this line is empty

B this line empty

C this line.empty

D this lineempty

10.grep “line.+empty “ 不会匹配下列哪一行？(D)

A this line is empty

B this line +empty

C this line.empty

11. 利用grep匹配文件中的gray 或者grey, pattern可以为(AD)

A ‘grellay’

B ‘gre|ay’

C ‘gr(e|a)y’

D ‘gray||grey’

12 awk中-F参数可用于指定分隔符，将每一行按照分隔符进行分列(A)

A 正确 B 错误

13 awk中-f参数可用于从脚本文件中读取awk命令(A)

A正确 B 错误

14. test,txt文中如下(B)

则cat test.txt|awk ‘{print NR,NF}’的输出为

A 正确 B 错误

15. test.txt 文件中的内容如下：(AC)

某一命令的输出为：

则该命令可能为

A awk ‘{print $2 “\t”$A}’ test.txt |sort -k2

B awk ‘{print$3 “\t” $A}’test.txt |sort -n-k2

C awk ‘{print$2 “\t” $A}’test.txt |sort -n-k2

D awk ‘{print$2 “\t” $A}’test.txt |sort -n-k1

16. 下列哪些是常用的登录服务器的工具？(AD)

A putty B winSCP C sshfs D ssh

17 下列哪些命令从头开始读取一个文件？(ABD)

A head B more C tail D less

18 file命令用来确定文件的大小（错）。

19 WC命令用来查看文本文件的单词数（对）。

20. ls的-A参数可以用来查看文件名以.开始的隐藏文件（对）。

Running Commands on a Single Machine--作业

判断

1.设置HISTIMEFORMAT变量，如export HISTTIMEFORMAT=’%F%T’,可以在使用history 命令式同时输出时间戳（对）。

2. ！！命令可用于再次执行上一条命令（对）。

3. ？中存储了上一条命令的运行结果，？等于1表示上一条命令执行成功。（错）。

4. crontab的-l参数可用于显示某个用户的crontab文件内容（对）。

5. last命令可用于显示最近登陆过的用户。（对）。

6. 下列哪条语句输出所有由我运行的程序的PID?（B）

A. ps aux|grep -v ‘whoami’|awk ‘{print $2}

B. ps aux|grep ‘whoami’|awk ‘{print $2}’

C. ps |grep ‘whoami’|awk ‘{print $2}’

D. ps aux|grep ‘whoami’ |awk -F ‘{print $2}’

Using a Linux Cluster -作业

1. 通过生成ssh密钥，可以不用密码登录linux服务器（对）。

2. 下列哪个工具可以在多台服务器上同时执行命令？（B）

A pscp B. pssh C. pslurp D. pnuke

Storage for Big Data Computing: Distributed file systems--作业

单选

1. 下列哪些属于分布式文件系统？（D）

A HBase B. Spark C. MapReduce D. KFS

判断

2. 在处理数据的能力上，分布式文件系统相比于单机最大的优点是能够并行处理数据。（对）

单选

3. 在存储文件方式上，传统文件系统和DFS:（B）

A .两者都以文件形式存储数据

B. 前者以文件形式存储数据，后者以固定大小的块单元存储数据

C. 前者以文件形式存储数据，后者以文件和固定大小的块单元形式存储数据

D. 两者都以block或者chunk形式存储数据

File system and GFS---作业

多选

1.分布式事务处理的特性包括哪些（ABCD）

A 持久性 B.隔离性 C. 原子性 D.一致性

2. 分布式系统设计包括（ABCDE)

A 容错，design for fault

B 数据/服务可靠性

C 多数据中心的数据一致性

D 可扩展性

E 尽可能的满足ACID特性

单选

3. 下面关于GFS集群的叙述中，正确是(C)

A. GFS所有的元数据都存放在chunkserver上

B. GFS所有的元数据都是放在硬盘上的

C. 一个GFS集群包括一个master 和大量chunkserver

D. 其他选项均不正确

判断

GFS中，客户与master 的交换只限于对元数据的操作，所有数据方面的通信都直接和

chunkserver 联系。（对）。

Understanding HDFS using Legos--作业

多选

1.关于HDFS,下面说法正确的是：(Acde)

A. HDFS中的文件以块序列的形式存储

B. 存储的文件块都有相同的大小

C. 文件块为了故障容错而被复制

D. HDFS中的文件是一次写的

E. 名字节点周期性地接受集群中数据节点的心跳和块报告，一个心跳的到达表示这个数据节点是正常的。

判断

.HDFS适用于要求低延时访问的应用程序。（错）

多选

HDFS中一个文件备份在多个位置的好处有哪些？

A改善服务的伸缩性

B 提高了容错能力

C 保证文件的完整性

D 保证文件的透明性

4. 对于HDFS中的名字节点，下面说法正确的是：

A 文件被分割成一个或多个块，被存储在一组名字节点中

B 名字节点可以对命名空间的文件或目录操作，如打开，关闭，重命名等

C. 名字节点可以处理来自文件系统客户对读写请求，以及执行块的创建，删除等操作

D. 名字节点可以确定块与数据节点等映射

File System Implementation and DFS-作业

判断

1. HDFS中典型的块大小是64MB，一个HDFS文件可以被切分成多个64MB大小的块，如果需要，每一个块可以分布在不同数据节点上。（对）

单选

2. 以下关于HDFS叙述错误的是？

A. 一个客户端创建一个文件的请求会立即转发到名字节点。

B. 当本地文件堆积到一个HDFS块大小的时候，客户端才会通知名字节点。

C. 名字节点构造包括数据节点ID和目标数据块标识的报文，用它回复客户端的请求。

D. 当文件关闭时，本地临时文件中未上传的残留数据就会被传送大宋数据节点。

单选

3.当Job Tracker宕掉时，Namenode会发生什么？

A. 当Job Tracker失败时候，集群也随之宕机

B. 当Job Tracker失败时，集群仍然可以正常工作，只要Namenode没问题。

C. 当Job Tracker 失败时，集群始终不会受到影响。

多选

4.Hadoop集群可以运行的几个模式有：（ABC)

A 单机（本地）模式

B 伪分布式模式

C 全分布式模式

5. jps 命令的用处？

A 检查Namenode是否正常工作

B. 检查Datanode是否正常工作

C. 检查Task Tracker是否正常工作

D. 检查Job Tracker 是否正常工作

What is MapReduce and why

判断题

jobtracker和tasktracker都可以管理整个系统内的任务。（）。

2. mapreduce系统中如节点故障、网络不通的问题都可以由系统自动管理。（）。

3.数据读入在mapreduce 的哪个阶段产生？(A)

A Map B Reduce

Processing pattern --作业

1.Map阶段生成的结果通过网络直接传输给reduce节点。（）。

2.通过自定义partition过程，用户可以自定义每个key将被分配到的reducer。（）。

3.具有同一个key的key/value对可能被分配到不同的reduce上

Hadoop-作业

判断

1. Map，Partition和Reduce阶段都存在对Local Storage的读写。（）。

2. Fair Scheduling对小任务更公平。（）

3. MapReduce处理的数据通常只存储在一台服务器上。（）。

Algorithms in MapReduce-作业

判断

1.MapReduce中search 任务可以只用map实现。（）。

2.统计最流行的单词时候，可以通过提前去除出现频率低的单词，来提高程序效率。（）。

3.利用Partition行数，Map和Reduce阶段不做任何操作即可实现排序功能。（）。

4.通过串联多个MapReduce过程，可以实现复杂的数据处理功能。（）。

Background --作业

多选

1.Spark的核心API支持下列哪几种语言(A，D，E)

A. Java B C/C++ D Ruby D Scala E Python

2. Spark生态体系中，包括以下哪几种计算框架(ACD)

A. Streaming B. Storm C. MLib D. Graphx

3. Spark 运行在现有的分布式文件系统（HDFS）之上。（）。

A. Spark大部分是用那种语言编写的。(A,C)

A. Scala B.C++ C. Java D C

Spark --作业

判断

1. Spark一切都以Resilient Distributed Dataset(RDD)为基础。（）。

2. 弹性数据集（RDD）的transformation操作表示对数据集的操作延迟执行，而Action操作表示执行对数据集的操作。（）。

多选

3.弹性数据集（RDD）可以从下列哪些对象转换过来？

A.其他RDD转换而来

B.Linux 单机文件系统中的数据

C.HDFS中存储的数据集

D.Hbase中的数据

A. RDD cache 默认的存储级别（StorageLeve）是什么

A.MYMORY_AND_DISK

B. MEMORY_ONLY
C. MEMORY_ONLY_SER
D. DISK_ONLY

Use Spark for data mining -作业

多选

1.以下针对RDD的操作中，属于Transformation的操作有哪些？

A map()

B Filter()

C count()

D union ()

2. 以下针对RDD的操作中，属于Action的操作有哪些？

A collect()

B reduce()

C save()

D cogroup()

3. 下列哪些模式可以运行Spark?(ABCD)

A Local

B Standalone

C Mesos

D YARN

Spark data processing -作业

判断

1. 在Spark的运行架构中，一个Job包含多个Task(被送到executor上的工作单元）组成的并向计算，往往由Transformation 产生。（）。

多选

2. 在Spark的任务处理中，Master节点充当哪些角色

A.任务和资源调度

B.节点管理

C.执行Executor 进程

D. RDD graph

单选题

3.Spark运行任务过程中的Stage是由下列哪个过程产生的？(B)

A RDD Objects

B DAGScheduler

C TaskScheduler

D Worker

Experiment in Spark -作业

判断

1.在Spark计算的过程中，可以直接使用Local files 和DFS files作为数据源来生成原始RDD。（）。

Introduction to streaming data processing -作业

多选题

1.哪些是流式数据处理的特征？(ABC)

A 秒级延迟

B 输入是流式数据源

C 整合了batch和interactive 操作

2. 哪些应用需要用到streaming data processing ?

A 社交媒体

B Web data

C 入侵检测数据

Storm-作业

判断

Storm中的Bolt既可以处理收到的Tuples,也可以创建新的Tuples流。（）。

多选

哪些是Apache Storm提供的默认系统管道（system pipelines)?

A. AlertPipeline

B. ErrorSearchPipeline

C. GraphiteWriterPipeline

D.MonitorMetricPipeline

E.SelfTestPipeline

Spark streaming --作业

判断

1.Data Pipeline 允许超级用户部署，启动，停止以及编辑预定义的系统管道。（）。

2.如果nodes失效，那么storm和spark streaming 在处理数据时都会丢失状态信息。（）。

NoSQL introduction--作业

多选

1.目前世界上主流的存储系统大部分还是采用了关系型数据库，关系型数据库的主要优点是

(ACD)

A 事务处理上能够保持数据的一致性

B 读写块且成本低

C 数据更新的开销很小

D 可以进行Join等复杂的查询

2. “NoSQL”系列数据库与传统的关系型数据库相比，优点有哪些

A 支持事务性操作

B Scale特性，支持简单的扩展

C 快速的读写

D 低廉的成本

判断

3. 关系型数据库所使用的定义严格、基于模式的方法是无法快速容纳新的数据类型的，

对于非结构化或者是半结构化的数据更是无能为力。而NoSQL提供的数据模型则能够很好

地处理非结构化/半结构化数据。（）。

A. 由于NoSQL数据库是分布式，水平扩展的，非常容易实现动态的可伸缩性。（）。

Common Advantages --作业

多选题

1. 在下列哪些生产环境的需求驱动下，使用”NoSQL”系列数据库比较合适

（ABCD）

A 数据库表schema经常变化

B. 数据库表字段是复杂数据类型

C. 高并发数据库请求

D. 海量数据的分布式存储

2. “NoSQL”系列的数据库根据数据的存储模型和特点可以分为很多类，其中属于

“key-value”存储类型的是(ABCD)

A. Berkeley DB

B. Memcache DB

C. Redis

D. Tokyo Cabinet/Tyrant

3. 属于图存储类型的“NoSQL”数据库有哪些(AB)

A NeoAJ

B.MongoDB

C. FlockDB

D. dbAo

Bigtable-作业

判断

1.BigTable是一个大规模管理半结构化/非结构化而设计的分布式存储系统，可以扩展到PB级数据和上千台服务器。（）。

2. BigTable的时间戳是第一级索引。（）。

单选：

如图所示，我查询“thu/”cs:foo”/8 ,返回的值是多少

table{

thu”:{

“cs:foo”:{

15:”y”,

4:”m”

“ee:bar”:{

15:”d”,

“soft:zoo”:{

6:”w”

3:”o”

1:”w”

}

A m

B y

C d

d w

Master Startup--作业

判断

1.BigTable依赖于Google的几项技术，用GFS来存储日志和数据文件；按SSTable文件

格式存储数据；用Chubby管理元数据，（）。

2. 单选

Chubby 是一种高可用的分布式锁服务，Chubby有几个活跃副本，同时有几个副本提供

服务。(B)

A 62 B 51 C 31 D 21

判断

3 Bigtable 集群包括三个主要部分：一个供客户端使用的库，一个主服务器

(master server),许多片服务器（tablet server)。客户端需要读写数据时，直接

与片服务器联系。（）。

单选题

下列哪个不属于HBase的特点(B)

A. 构建在HDFS上的分布式存储系统；

B. 典型的文档存储的数据块系统

C. Apache Hadoop生态系统中的重要一员，主要用于海量结构化数据存储

D. HBase将数据按照表，行和列进行存储

E. Hbase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和

存储能力。

判断

HBase为每个值维护了多级索引，即：<key, column family, column name ,timestamp>

()。

What is GraphDB and Graph data processing ---作业

判断

1. GraphDB的特性是对关系进行操作。（）。

多选

2. 以下哪些场景或系统中的数据可以构成graph？

A Internet

B Web

C.社交网络

D.推荐系统

Graph systems

判断

1. 在Graph并行系统中，一个结点的值只受相邻结点的影响，因此可以根据局部值就可以做更新。（）。

Example of a GraphDB-作业

判断

1.GraphLab通过对节点和边进行划分，然后通过对节点进行update,来进行原子化操作，

从而达到对图进行分布式处理的目标。（）。

Mahout --作业

多选

下列哪些是聚类算法？(AD)

A K-means

B 神经网络

C K-medoids

D DBScan

E KNN

F Decission Tree

Case Study :Recommendatio 作业

单选

1. 用户的评价如下，根据slope one算法，计算John对itemA的评价为：

item A itemB

Leo 5 3

Marria 3 4

John ？　　　3.5

A 3 B 3.5 C 4 D 4.33

Recommendation in Mahout-作业

多选

下列哪些是mahout中的java接口？

A UserSimilarity interface

B NeighborhoodSimilarity interfece

C DataModel interface

D. DataAbstraction interface

zhaohong1218_

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
高级大数据系统

1. 在Spark的运行架构中，一个Job包含多个Task(被送到executor上的工作单元）组成的并向计算，往往由Transformation 产生。2. 弹性数据集（RDD）的transformation操作表示对数据集的操作延迟执行，而Action操作表示执行对数据集的操作。1. HDFS中典型的块大小是64MB，一个HDFS文件可以被切分成多个64MB大小的块，如果需要，每一个块可以分布在不同数据节点上。1.Data Pipeline 允许超级用户部署，启动，停止以及编辑预定义的系统管道。
复制链接

扫一扫