山东大学软件学院Nosql（非关系型数据库）往年题目整理与个人解答

{
    "team_id": 123,
    "region": "North America",
    "address": "123 Main St",
    "members": [
        {
            "representative": {
                "name": "John Smith",
                "age": 30,
                "gender": "male"
            },
            "athletes": [
                {
                    "id": 1,
                    "name": "Alice",
                    "age": 25,
                    "gender": "female",
                    "matches": [
                        {
                            "time": "2022-01-01T00:00:00Z",
                            "score": 100,
                            "event": {
                                "id": 1,
                                "name": "100m sprint",
                                "level": "Olympic",
                                "category": {
                                    "id": 1,
                                    "name": "Track and Field",
                                    "director": "Jane Doe"
                                }
                            }
                        },
                        {
                            "time": "2022-01-02T00:00:00Z",
                            "score": 95,
                            "event": {
                                "id": 2,
                                "name": "200m sprint",
                                "level": "Olympic",
                                "category": {
                                    "id": 1,
                                    "name": "Track and Field",
                                    "director": "Jane Doe"
                                }
                            }
                        }
                    ]
                },
                {
                    "id": 2,
                    "name": "Bob",
                    "age": 27,
                    "gender": "male",
                    "matches": [
                        {
                            "time": "2022-01-01T00:00:00Z",
                            "score": 90,
                            "event": {
                                "id": 3,
                                "name": "100m freestyle",
                                "level": "Olympic",
                                "category": {
                                    "id": 2,
                                    "name": "Swimming",
                                    "director": "John Doe"
                                }
                            }
                        }
                    ]
                }
            ]
        }
    ]
}

2.自选算法实现QQ空间功能

日志：可以使用单个文档来存储日志信息，其中包含日志标题、内容、发布时间等字段。例如：

{

"_id" : ObjectId("5f948a56f36d280bc4e4d4b1"),

"title" : "我的第一篇日志",

"content" : "今天是个好天气，我喜欢的女生向我表白了，我们出去玩了一整天。//23333333333333，来自单身狗的幻想",

"date" : ISODate("2022-10-20T08:20:00.000Z")

}

说说：可以使用单个文档来存储说说信息，其中包含内容、发布时间等字段。例如：

{

"_id" : ObjectId("5f948a56f36d280bc4e4d4b2"),

"content" : "今天的心情真好！",

"date" : ISODate("2022-10-20T08:30:00.000Z")

}

相册照片：可以使用单个文档来存储相册信息，其中包含相册名称、照片列表等字段。例如：

{

"_id" : ObjectId("5f948a56f36d280bc4e4d4b3"),

"name" : "我的照片",

"photos" : [

{ "url" : "https://example.com/photos/1.jpg" },

{ "url" : "https://example.com/photos/2.jpg" },

{ "url" : "https://example.com/photos/3.jpg" }

]

}

好友互访记录：可以使用单个文档来存储互访记录信息，其中包含发起方、接收方、时间等字段。例如：
{

    "_id" : ObjectId("5f948a56f36d280bc4e4d4b4"),

    "from" : "user1",

    "to" : "user2",

    "date" : ISODate("2022-10-20T08:40:00.000Z")

}

3.neo4j转Hbase

这里我就写了一部分，剩下的按图索骥就好

row_key            column_family:column_qualifier    value
"Beijing"          "info:area"                       "16410km2"
"Beijing"          "info:longitude"                  "38°"
"Beijing"          "info:latitude"                   "116°"
"Beijing"          "info:population"                 "2069万"
"Beijing"          "relationship:belongs_to"         "China"
"China"            "info:population"                 "14亿"
"China"            "info:area"                       "960万平方千米"
"China"            "relationship:belongs_to"         "Country"
"United Kingdom"   "relationship:belongs_to"         "Country"
"United States"    "relationship:belongs_to"         "Country"
"Seattle"          "relationship:is_city_of"         "United States"
在上述格式中，每一行都有一个唯一的行键，表示实体的名称。每一列都有一个列族和一个列限定符，表示属性的名称和类型。例如，"Beijing"行的"info:area"列表示北京的面积，"Seattle"行的"relationship:is_city_of"列表示西雅图是美国的城市。

扩展：转MongoDB（不全）

{
    "_id" : ObjectId("5f98e4a4cf3f4f6b9f13d9b8"),
    "name" : "Beijing",
    "area" : "2333km2",
    "longitude" : "38°",
    "latitude" : "116°",
    "population" : "2069万",
    "belongs_to" : "China"
}

{
    "_id" : ObjectId("5f98e4a4cf3f4f6b9f13d9b9"),
    "name" : "China",
    "population" : "14亿",
    "area" : "960万平方千米",
    "belongs_to" : "Country"
}

{
    "_id" : ObjectId("5f98e4a4cf3f4f6b9f13d9ba"),
    "name" : "United Kingdom",
    "belongs_to" : "Country"
}

{
    "_id" : ObjectId("5f98e4a4cf3f4f6b9f13d9bb"),
    "name" : "United States",
    "belongs_to" : "Country"
}

{
    "_id" : ObjectId("5f98e4a4cf3f4f6b9f13d9bc"),
    "name" : "Seattle",
    "is_city_of" : "United States"
}

扩展：转写成列存储格式

表1：地区信息表

地区名称	面积(km2)	经度	维度	人口
北京	2333	38°	116°	2069万
中国	960万			14亿
英国
美国
西雅图

表2：关系表

地区名称1	关系名称	地区名称2
北京	属于	中国
中国	属于	国家
英国	属于	国家
美国	属于	国家
西雅图	城市	美国

4.利用MongoDB实现类似微信朋友圈的功能

利用MongoDB实现类似微信朋友圈的功能，实现至少包括日志、说说、相册照片、好友互访记录的功能，要求给出设计结构结果，描述空间刷新的算法

思想同上文所述

5.使用MongoDB设计微博后台，实现功能包括发布微博(大V发微博如何通知粉丝)，评论、点赞，以及微博粉丝管理等功
能

用户信息：可以使用单个文档来存储用户信息，其中包含用户名、密码、粉丝列表等字段。例如：

{

"_id" : ObjectId("5f948a56f36d280bc4e4d4b1"),

"username" : "user1",

"password" : "123456",

"followers" : [ "user2", "user3", "user4" ]

}

微博信息：可以使用单个文档来存储微博信息，其中包含发布者、内容、发布时间、评论列表、点赞列表等字段。例如：

{

"_id" : ObjectId("5f948a56f36d280bc4e4d4b2"),

"author" : "user1",

"content" : "今天的心情真好！",

"date" : ISODate("2022-10-20T08:30:00.000Z"),

"comments" : [

{ "author" : "user2", "content" : "真的吗？" },

{ "author" : "user3", "content" : "是啊，很开心！" }

"likes" : [ "user4", "user5" ]

}

评论信息：可以使用单个文档来存储评论信息，其中包含发布者、内容、发布时间等字段。例如：

{

"_id" : ObjectId("5f948a56f36d280bc4e4d4b3"),

"author" : "user2",

"content" : "真的吗？",

"date" : ISODate("2022-10-20T08:35:00.000Z")

}

实现推送步骤：

在服务端（如果使用 RabbitMQ，则需要安装 RabbitMQ 服务器并启动）
在客户端（如果使用 Java，则需要引入 RabbitMQ 的 Java 客户端依赖）
在服务端，创建交换机和队列，并将交换机与队列进行绑定
在服务端，使用消息生产者向交换机发送消息
在客户端，使用消息消费者监听队列，并在收到消息时进行处理

6.简述BASE模型和ACID的区别

BASE模型和ACID是用于描述分布式系统的两种模型。

BASE模型（Basically Available, Soft state, Eventually consistent）指的是分布式系统中的数据可能并不是实时可用的，但在一定时间内可以达到一致性，因此在一定时间内可以接受小的不一致性。

ACID（Atomicity, Consistency, Isolation, Durability）指的是分布式系统中的数据要满足原子性、一致性、隔离性、持久性这四个特征。

总的来说，BASE模型更加弹性，在保证可用性的同时，能够接受小的不一致性；而ACID模型则更加严格，要求分布式系统中的数据在所有时刻都必须保持一致性。

7.RDB，NoSQL ，NewSQL之间的比较

RDB（Relational Database）是关系数据库的缩写，是使用 SQL 语言操作的数据库类型。

NoSQL（Not Only SQL）是非关系数据库的缩写，是一类使用非 SQL 语言操作的数据库类型。NoSQL 数据库通常具有以下特点：

使用非关系型的数据模型，如键值对、文档、图形等
具有较高的可扩展性和更好的性能
适用于存储非结构化数据

NewSQL（New Structured Query Language）是一类旨在提供 SQL 语言和 NoSQL 数据库的优点的数据库类型。NewSQL 数据库通常具有以下特点：

使用关系型的数据模型，支持 SQL 语言
具有较高的可扩展性和更好的性能
支持 ACID 事务

总的来说，RDB 是关系数据库，NoSQL 是非关系数据库，NewSQL 是兼具关系数据库和非关系数据库优点的数据库类型。

8.利用MongoDB数据库完成QQ二度好友和三度好友算法 (所谓二度好友就是好友的好友)

在 MongoDB 中，可以使用 $graphLookup 聚合管道来实现 QQ 二度好友和三度好友的算法。
首先，假设已经有一个名为 "users" 的集合，存储了所有用户的信息，包括用户名和好友列表。
接下来，可以使用以下聚合管道来查询某个用户的二度好友：
db.users.aggregate([
  // 首先，使用 $match 管道筛选出特定的用户
  {
    $match: {
      name: "用户名"
    }
  },
  // 然后，使用 $graphLookup 管道查询二度好友
  {
    $graphLookup: {
      from: "users", // 指定来源集合
      startWith: "$friends", // 从好友列表开始查询
      connectFromField: "friends", // 在来源集合中的字段
      connectToField: "_id", // 在当前集合中的字段
      as: "friends_of_friends" // 输出的字段名称
    }
  }
])





要查询某个用户的三度好友，可以使用以下聚合管道：
db.users.aggregate([
  // 首先，使用 $match 管道筛选出特定的用户
  {
    $match: {
      name: "用户名"
    }
  },
  // 然后，使用 $graphLookup 管道查询二度好友
  {
    $graphLookup: {
      from: "users", // 指定来源集合
      startWith: "$friends", // 从好友列表开始查询
      connectFromField: "friends", // 在来源集合中的字段
      connectToField: "_id", // 在当前集合中的字段
      as: "friends_of_friends" // 输出的字段名称
    }
  },
  // 最后，再次使用 $graphLookup 管道查询三度好友
  {
    $graphLookup: {
      from: "users", // 指定来源集合
      startWith: "$friends_of_friends.friends", // 从二度好友的好友列表开始查询 connectFromField: "friends", // 在来源集合中的字段 connectToField: "_id", // 在当前集合中的字段 as: "friends_of_friends_of_friends" // 输出的字段名称 } } ])

在上述聚合管道中，使用了两个 $graphLookup 管道，第一个管道用于查询二度好友，第二个管道用于查询三度好友。查询结果包含两个数组字段，分别存储二度好友和三度好友的信息。

如果希望将二度好友和三度好友的信息拼接在一起，可以使用 $concatArrays 管道将两个数组合并为一个数组。例如：

db.users.aggregate([ // 使用 $match 和 $graphLookup 管道查询二度好友和三度好友 // 省略代码 // 使用 $concatArrays 管道将二度好友和三度好友合并为一个数组 { $project: { friends: { $concatArrays: [ "$friends_of_friends", "$friends_of_friends_of_friends" ] } } } ])

9.CAP为什么不能兼得

//建议看PPT

CAP定理指出，在分布式系统中，一个数据库的设计必须同时考虑三个因素：一致性（Consistency）、可用性（Availability）和分区容错性（Partition tolerance）。它指出，在分布式系统中，不可能同时具备所有三个因素的最优特性。这意味着，在分布式系统中，必须有所取舍，即在满足其中两个因素的同时，必须牺牲另一个因素。

举个例子，在分布式数据库中，如果希望保证数据的一致性和可用性，则必须牺牲分区容错性。这意味着，在网络出现故障时，数据库可能无法保证数据的可用性。

因此，在分布式系统中，不可能同时具备CAP定理中的三个因素的最优特性。必须根据实际情况来决定如何权衡这三个因素，以便在满足业务需求的同时尽可能地保证系统的可用性和一致性。

10.DNS系统怎么保证数据一致性

DNS系统通常使用复制来保证数据的一致性。这意味着，对于每个DNS服务器，都有多个副本存储着相同的数据。当有更新时，所有副本都会得到更新，以确保所有DNS服务器上存储的数据保持一致。

另外，DNS系统还使用了一种称为TTL（Time To Live）的机制来保证数据的一致性。TTL是每条DNS记录存储的时间长度，表示该记录的有效期。当一条DNS记录的TTL到期时，它就会被自动删除。这样，DNS系统就可以保证数据的一致性，因为过期的数据不会被使用。

总的来说，DNS系统使用复制和TTL等机制来保证数据的一致性，从而使得用户能够准确地访问网站。

11.解释base模型

BASE是一种数据库设计理论，其名称是由四个单词构成的首字母缩写：

Basically Available：基本可用，指数据库应尽可能可用。
Soft state：软状态，指数据库的状态是可变的。
Eventually consistent：最终一致，指数据库的数据最终会变得一致。

BASE模型是对CAP定理的一种替代理论。在CAP定理中，一个数据库必须在保证一致性、可用性和分区容错性三者之间进行权衡。BASE模型则认为，在分布式系统中，数据库不必总是保证强一致性，而可以采用更加宽松的一致性模型。

BASE模型建议数据库设计师应该尽量保证数据库的可用性，即使这意味着在牺牲一致性的情况下也要这样做。这意味着，在分布式系统中，可以接受数据库的数据在某些时候不完全一致，因为这样可以使数据库保持可用。然后，在数据的一致性恢复之后，数据库可以继续保持高可用性。

12.解释NWR模型

NWR模型是一种数据库设计理论，其名称是由三个单词构成的首字母缩写：

NoSQL：NoSQL是一种非关系型数据库，它指的是非传统关系型数据库。
Weak consistency：弱一致性，指数据库的数据在一定时间内可能不完全一致。
Relaxed durability：宽松的持久性，指数据库的数据在一定时间内可能不完全持久。

NWR模型是对BASE模型的一种扩展，它提出了更加宽松的一致性和持久性模型。NWR模型建议数

13.解释两阶段提交协议

两阶段提交协议（Two-Phase Commit Protocol，简称2PC）是一种分布式事务处理协议，用于在分布式系统中保证事务的原子性。

事务是指一组操作，要么全部执行，要么全部不执行。在分布式系统中，如果不使用2PC协议，那么事务可能会被分成多个部分，分别在不同的节点上执行。这样就可能导致事务的部分执行，从而破坏事务的原子性。

2PC协议通过在事务执行的两个阶段之间插入一个提交阶段，来保证事务的原子性。在第一阶段，事务的所有参与者都会把自己执行事务的结果报告给事务协调者。在第二阶段，事务协调者会根据所有参与者的报告，决定是提交事务还是回滚事务。如果所有参与者都报告执行成功，则事务协调者会向所有参与者发出提交指令，要求它们提交事务。如果有任何参与者报告执行失败，则事务协调者会向所有参与者发出回滚指令，要求它们回滚事务。

这样，2PC协议就保证了事务的原子性，即使在分布式系统中也是如此。然而，2PC协议也有一些缺点，比如它的效率较低，因为需要在事务的两个阶段之间进行额外的通信。此外，2PC协议还有一些特定的问题，如协调者故障、参与者故障等，需要特殊处理。

14.用分布式应用系统解释购物流程

在分布式应用系统中，购物流程可能会涉及到多个系统，包括电商网站、订单管理系统、支付系统、物流系统等。

假设有一个用户在电商网站上购买了一件商品，那么整个购物流程可能会如下所示：

用户在电商网站上选择商品，并添加到购物车。
用户进入购物车界面，确认订单信息，并提交订单。
电商网站的订单管理系统接收到订单，并向支付系统发起支付请求。
支付系统收到请求，会向银行发银行收到支付请求，会扣除用户的账户余额，并向支付系统返回支付结果。
支付系统收到支付结果后，会向订单管理系统返回支付结果。
订单管理系统收到支付结果后，会向电商网站返回支付结果。
电商网站收到支付结果后，会向物流系统发送发货请求。
物流系统收到发货请求后，会向快递公司发起配送请求。
快递公司收到配送请求后，会向用户送货。

15.举出文档存储不适用案例

文档存储是一种数据存储方式，它适用于存储文档类型的数据。文档存储系统通常使用键值对的形式存储数据，允许开发人员将文档的不同部分存储在不同的字段中。

但是，文档存储不适用于所有场景。以下是文档存储不适用的一些案例：

需要强一致性的场景：文档存储系统的一致性通常比较弱，因此如果需要保证数据的强一致性，文档存储可能不是最佳选择。
需要复杂的事务处理的场景：文档存储系统通常不支持复杂的事务处理功能，因此如果需要进行复杂的事务处理，文档存储可能不是最佳选择。
需要对数据进行复杂的查询和聚合操作的场景：文档存储系统通常不支持对数据进行复杂的查询和聚合操作，因此如果需要进行这类操作，文档存储可能不是最佳选择。

当然，文档存储也有许多优点，比如灵活的数据模型、高可用性等

具体的栗子：

公司内部工资系统：公司内部的工资系统可能需要保证数据的强一致性，因此文档存储可能不是最佳选择。相反，可以考虑使用关系型数据库来存储工资信息。
银行转账系统：银行转账系统可能需要进行复杂的事务处理，因此文档存储可能不是最佳选择。相反，可以考虑使用关系型数据库或分布式事务系统来处理事务。
大型电商网站：大型电商网站可能需要对数据进行复杂的查询和聚合操作，因此文档存储可能不是最佳选择。相反，可以考虑使用关系型数据库或分布式数据仓库系统来进行复杂的查询和聚合操作。

16.MongoDB条件操作符

//这玩意不考

$eq：等于。如：{ age: { $eq: 30 } }，表示查询age字段等于30的文档。
$gt：大于。如：{ age: { $gt: 30 } }，表示查询age字段大于30的文档。
$gte：大于等于。如：{ age: { $gte: 30 } }，表示查询age字段大于等于30的文档。
$lt：小于。如：{ age: { $lt: 30 } }，表示查询age字段小于30的文档。
$lte：小于等于。如：{ age: { $lte: 30 } }，表示查询age字段小于等于30的文档。
$ne：不等于。如：{ age: { $ne: 30 } }，表示查询age字段不等于30的文档

17.MongoDB怎样实现分页//押到原题啦，开心

在MongoDB中，可以通过使用skip和limit方法来实现分页。

例如，要查询第二页的数据（每页10条），可以使用以下代码：

db.collection.find().skip(10).limit(10)

这里的skip方法用于跳过前10条数据，limit方法用于限制返回的文档数。

如果要查询第三页的数据，可以使用以下代码：

db.collection.find().skip(20).limit(10)

以此类推，可以通过调整skip和limit方法的参数来实现分页查询。

//需要注意的是，使用skip方法时，查询性能会逐渐下降

18.MongoDB：游标介绍

在MongoDB中，游标是一种数据结构，用于在查询返回的结果集中遍历文档。

例如，使用find方法查询文档时，MongoDB会返回一个游标对象，开发人员可以使用该游标对象来遍历查询结果。

在MongoDB中，游标有两种类型：

内存游标：内存游标会将所有查询结果加载到内存中，然后提供遍历查询结果的功能。内存游标操作方便，但如果查询结果很大，可能会导致内存占用过大的问题。
服务器游标：服务器游标会在服务器端保存查询结果，通过不断向服务器请求数据来遍历查询结果。服务器游标

在MongoDB中，使用游标的方式有两种：

通过toArray方法将查询结果转换为数组，然后使用for循环遍历该数组：

var cursor = db.collection.find();

var result = cursor.toArray();

for (var i = 0; i < result.length; i++) {

print(result[i]);

}

通过hasNext和next方法来遍历游标：

var cursor = db.collection.find();

while (cursor.hasNext()) {

print(cursor.next());

}

需要注意的是，MongoDB默认返回的是内存游标，如果查询结果很大，可能会导致内存占用过大的问题。因此，在查询大量数据时，建议使用服务器游标，可以通过设置游标选项来使用服务器游标：

var cursor = db.collection.find().batchSize(100);

while (cursor.hasNext()) {

print(cursor.next());

19.MongoDB怎样创建索引

在MongoDB中，可以使用createIndex方法来创建索引。例如，要为名为"users"的集合创建name字段的升序索引，可以使用以下代码：

db.users.createIndex({ name: 1 });

如果要创建降序索引，可以使用以下代码：

db.users.createIndex({ name: -1 });

除了单字段索引之外，MongoDB还支持复合索引。例如，要为名为"users"的集合创建name字段和age字段的升序索引，可以使用以下代码：

db.users.createIndex({ name: 1, age: 1 });

需要注意的是，MongoDB会对每个集合自动创建_id字段的升序索引。因此，如果要使用其他字段作为索引，需要手动创建。

此外，MongoDB还支持其他类型的索引，如唯一索引、文本索引、地理空间索引等，可以根据实际应用的需要来选择合适的索引类型。

20.MongoDB 优化

MongoDB是一种流行的NoSQL数据库，它具有高性能、高可扩展性等优点，但在使用过程中，也可能会遇到一些性能问题。因此，对MongoDB进行优化是很有必要的。

以下是几种常用的MongoDB优化方法：

合理使用索引：在MongoDB中，索引可以大大提高查询性能。因此，在设计数据模型时，应考虑哪些字段需要创建索引，并尽量避免对未创建索引的字段进行查询。
使用合适的存储引擎：MongoDB支持多种存储引擎，如WiredTiger、In-Memory等。每种存储引擎都有其特定的优点和适用场景。因此，应根据实际应用的需要，选择合适的存储引擎。
合理设置数据存储的副本集：MongoDB支持数据的副本集功能，可以将数据的副本存储在多台机器上，以提高数据的可用性。在设置副本集时，应考虑数据存储的机器数量、机器的硬件配置等因素，以便合理设置副本集。
使用合适的读写分离方案：MongoDB支持读写分离，可以将读操作和写操作分别放在不同的机器上。在设置读写分离方案时，应考虑数据的读写比例、机器的硬件配置等因素，以便合理设置读写分离方案。

21.MongoDB 分片

MongoDB支持分片功能，可以将大量数据分散存储在多台机器上，以提高数据的存储和查询性能。

在MongoDB中，分片由两部分组成：分片组和分片。分片组是一组包含多个分片的机器，分片是存储在分片组中的数据。

为了使用分片功能，需要先在MongoDB中设置分片组，然后将数据分片到分片组中。这通常是通过MongoDB管理工具完成的。

例如，假设要将"users"集合分片到三台机器上，可以使用以下命令：

sh.enableSharding("mydb");

sh.shardCollection("mydb.users", { username: 1 } );

在上面的命令中，首先使用enableSharding命令开启分片功能，然后使用shardCollection命

MongoDB实现添加评论的操作

在MongoDB中，可以使用update方法来实现添加评论的操作。

例如，假设有一个名为"posts"的集合，包含了文章的信息，现在要在某篇文章下添加一条评论，可以使用以下代码：

db.posts.update(

    { _id: ObjectId("5f9d9d9a9a9a9a9a9a9a9a9a") },

    { $push: { comments: { user: "John", text: "Nice article!" } } }

);

在上面的代码中，使用update方法更新文章信息，$push操作符用于在comments字段中添加一条新的评论。

此外，在MongoDB中还有其他操作符可以用于修改数组字段，如$addToSet操作

22.Hbase数据库和MongoDB的区别和优缺点

Base和MongoDB是两种流行的NoSQL数据库，它们各有优点和缺点，适用于不同的应用场景。

以下是HBase和MongoDB的一些主要区别和优缺点：

数据模型：HBase使用的是列存储模型，数据以键值对的形式存储，键值对之间可以有多列。MongoDB使用的是文档存储模型，每个文档都是一个自包含的、可自由扩展的JSON对象。
存储结构：HBase是分布式的、列存储的数据库，可以存储大量的结构化数据。MongoDB是文档型数据库，适用于存储结构不太统一的数据。
查询方式：HBase使用类似SQL的查询语言，可以对文档中的索引字段进行查询。MongoDB使用的是类似JSON的查询语言
可扩展性：HBase支持分片功能，可以将数据分散存储在多台机器上，以提高存储和查询性能。MongoDB也支持分片功能，并支持副本集功能，可以将数据的副本存储在多台机器上，以提高数据的可用性。
性能：HBase在存储和查询大量数据时，具有较高的性能。MongoDB也可以处理大量数据，但在处理小量数据时，性能可能较差。
容错性：HBase支持数据的自动备份和恢复功能，在数据丢失或故障时可以自动恢复。MongoDB也支持数据的自动备份和恢复功能。
支持的数据类型：HBase只支持基本的数据类型，如数字、字符串等。MongoDB支持更丰富的数据类型，如数组、文档等。

23.HBase数据模型

HBase是一种分布式、列存储的NoSQL数据库，它的数据模型是基于Google Bigtable的。

在HBase中，数据以键值对的形式存储，键值对之间可以有多列。每个键值对被称为一个单元格（Cell），其中键称为行键（Row Key），值称为列值（Column Value）。

HBase的数据模型可以概括为：

(Row Key, Column Family, Column Qualifier, Timestamp) => Cell Value

其中：

Row Key：行键，是唯一的、字符串类型的标识符，用于标识数据所在的行。
Column Family：列族，是一组相关的列的集合，用于将不同类型的数据分组。
Column Qualifier：列限定符，是列的标识符，用于标识数据所在的列。
Timestamp：时间戳，是单元格的创建时间，用于标识数据的版本。
Cell Value：单元格值，是存储在单元格中的数据。

24.如果想统计过去10年计算机论文中出现次数最多的几个单词，看看大家都在研究些什么，怎样实现？

准备数据：首先，需要准备过去10年的计算机论文数据。可以将数据存储在HDFS中，以便MapReduce程序能够访问。
实现Map函数：然后，需要实现Map函数，该函数负责对每篇论文进行分词，并将每个词语作为键，出现次数作为值，输出键值对。
实现Reduce函数：接下来，需要实现Reduce函数，该函数负责将输入的键值对按照键分组，然后对每组数据进行统计
运行MapReduce程序：最后，可以使用Hadoop的MapReduce程序来运行Map和Reduce函数。MapReduce程序会根据数据的分布情况，将数据分发到多个节点上进行计算，最后将结果合并并输出。
分析结果：最后，可以分析MapReduce程序的输出结果，看看过去10年计算机论文中出现次数最多的几个单词是什么。可以使用图表或其他工具来可视化结果，以便更好地理解和分析。

25.MapReduce的K V代表什么

MapReduce是一种分布式计算框架，用于处理大量的数据。它的基本操作是Map和Reduce，其中Map和Reduce的输入输出都是键值对（Key-Value，简称KV）。

在MapReduce中，KV是一种用于表示数据的数据结构，其中键（Key）是唯一的、不可变的标识符，值（Value）是数据本身。KV可以用于表示任意类型的数据，如数字、字符串、对象等。

在Map函数中，KV用于表示输入数据。Map函数从输入数据中读取KV，并对其进行处理，然后输出新的KV作为Map函数的输出。

在Reduce函数中，KV用于表示Map函数的输出。Reduce函数从Map函数的输出中读取KV，并对其进行处理，然后输出新的KV作为Reduce函数的输出。

26.用通俗的原理解释MapReduce的工作原理

MapReduce是一种分布式计算框架，用于处理大量的数据。它的工作原理可以用下面这个例子来解释：

假设你有一个巨大的书架，书架上有成千上万本书，你想统计书架中每本书的页数总和。如果你要手动统计，那么你需要一个一个打开书，翻开页面，然后把页数加起来。这个过程可能会花费很长时间，而且很容易出错。

现在，你有了MapReduce的帮助。你可以把书架中的每本书分配给一个叫Map的工人，让他把书打开，翻开页面，然后把页数加起来。每个Map工人都会独立地完成这个任务，并把计算结果记录在一张表格上。

接着，你会有一个叫Reduce的工人，他的工作是读取所有Map工人的表格，然后把所有页数加起来。最后，Reduce工人会把总和告诉你，这样你就可以知道书架中每本书的页数总和了。

27.Redis数据类型set和list有什么区别？

Redis的set和list数据类型在存储数据的方式和使用上有一些区别。

存储方式：set是一种无序的字符串集合，每个元素都是独一无二的。list是一种有序的字符串列表，每个元素都有一个编号（也叫指针），编号从0开始。
可以存储的数据类型：set只能存储字符串类型的数据，list可以存储任何类型的数据。
常用操作：set常用于求并集、交集、差集，也可以用来判断某个元素是否存在。list常用于插入和删除数据，也可以用来遍历数据。
复杂度：对于set来说，无论是添加、删除还是查询元素，复杂度均为O(1)。对于list来说，头部插入和删除的复杂度为O(1)，尾部插入和删除的复杂度

28.为什么对于set来说查询的复杂度是O(1)

Redis set 数据类型是一种无序的字符串集合。它是通过哈希表实现的，所以查询是常数时间复杂度，也就是 O(1)。

这意味着，无论 set 中有多少元素，查询一个元素是否在 set 中都是恒定的时间复杂度。这使得 set 非常适合做元素的快速查询。

相比之下，Redis list 数据类型是一个双端链表。它的查询复杂度是 O(n)，因为在链表的末尾查询元素需要遍历整个链表。

总的来说，如果你希望快速查询元素是否在集合中，使用 set 数据类型是更好的选择。如果你希望保留元素的顺序并且常常遍历整个集合，使用 list 数据类型是更好的选择。

29.如何使用Redis来构建一个简单的文章投票网站的后端

要求如下：如果一篇文章获得了至少200张支持票（up vote），那么网站就认为这篇文章是一篇有趣的文章假如这个网站每天发布1000篇文章，而其中的50篇符合网站对有趣文章的要求，那么网站要做的就是把这50篇文章放到文章列表前100位至少一天这个网站暂时不提供投反对票（down vote）的功能

下面是使用Redis来构建这个文章投票网站的后端的一个可行的思路：

首先，需要创建一个存储文章支持票数的数据结构。这里可以使用Redis的Hash数据类型，将文章ID作为键，支持票数作为值。这样就可以方便地查询某一篇文章的支持票数。
创建一个排序的数据结构，将符合有趣文章要求的文章放到列表的前100位。这里可以使用Redis的Sorted Set数据类型，将文章ID作为成员，支持票数作为分值。这样就可以通过ZRANGE命令来获取前100篇文章的ID。
实现文章投票的功能。每当一篇文章获得一张支持票时，就需要将文章的支持票数加1，并更新到Hash数据结构中。如果文章的支持票数超过200张，那么还需要将文章加入Sorted Set数据结构中，并通过ZADD命令将文章的支持票数设为分值。
实现每天刷新文章列表的功能。可以使用定时任务或者计划任务，每天定时调用一次ZREMRANGEBYRANK命令，将Sorted Set数据结构中的成员数量超过100的文章删除

30.怎样防止一个用户多次投票？

一种方法是在投票的时候，把用户的IP地址作为唯一的标识符，存储在Redis的set数据类型中。然后，在每次投票时，检查用户的IP地址是否已经存在于set中。如果存在，则表示用户已经投过票，投票失败；如果不存在，则表示用户没有投过票，投票成功，并把用户的IP地址加入set中。

这种方法的优点是简单易实现，并且查询复杂度很低，是O(1)的。但是，如果用户的IP地址发生改变，例如通过代理服务器上网，那么就会导致用户可以多次投票。因此，这种方法并不能完全避免用户多次投票的情况。

另一种方法是在投票的时候，使用用户的登录账号作为唯一的标识符。在这种情况下，只要用户登录了账号，就只能投一次票。这种方法的优点是可以有效避免用户多次投票的情况。但是，它的缺点是需要用户登录账号，对于匿名用户就无法使用。可以使用Redis的数据类型sorted set来记录文章的投票数。使用文章的ID作为sorted set的成员，投票数作为成员的分值。每次有用户投票时，可以使用ZINCRBY命令来将文章的投票数加1。

为了防止一个用户多次投票，可以使用Redis的set数据类型来存储用户的投票记录。每当一个用户投票时，可以使用SADD命令将文章的ID添加到用户的投票记录中。在进行投票前，可以使用SISMEMBER命令检查用户是否已经投过票。如果用户之前已经投过票，则不进行投票；如果用户之前没有投过票，则进行投票。

为了把符合要求的文章放到文章列表的前100位，可以使用ZREVRANGE命令来获取投票数排名前100的文章。然后，可以使用ZSCORE命令来检查这些文章的投票数是否达到了200。如果达到了200，则将文章加入到文章列表中。

这样，就可以使用Redis来构建一个简单的文章投票网站的后端了。

31.Neo4j遍历所有朋友的伪代码

# 开始遍历朋友

while (!queue.isEmpty()) {

# 取出队首节点

Node currentNode = queue.poll();

# 遍历节点的所有朋友关系

for (Relationship relationship : currentNode.getRelationships(friendType)) {

# 获取朋友节点

Node friendNode = relationship.getOtherNode(currentNode);

# 执行操作（例如输出节点信息）

printNode(friendNode);

# 将朋友节点加入队列

queue.add(friendNode);

}

32.Neo4j遍历所有朋友的朋友的伪代码

TraversalDescription td = db.traversalDescription()
    .breadthFirst()
    .relationships(RelationshipTypes.FRIEND_OF, Direction.OUTGOING)
    .relationships(RelationshipTypes.FRIEND_OF, Direction.OUTGOING)
    .evaluator(Evaluators.atDepth(2));

Traverser friendsOfFriends = td.traverse(startNode);
for (Node friend : friendsOfFriends) {
    // do something with friend
}
其中，startNode 是开始遍历的节点，RelationshipTypes.FRIEND_OF 是两个节点之间的关系名称，Direction.OUTGOING 表示遍历的方向是从起点往外边走，Evaluators.atDepth(2) 表示遍历到第二层就停止。
这段代码执行后，会返回一个遍历器（traverser），通过遍历器可以遍历所有的第二层朋友。

33.Neo4j索引的用处

Neo4j索引是指为了提高查询效率，在图数据库中创建的一种预先组织好的数据结构。这种数据结构可以快速找到满足特定条件的节点或关系，而不必扫描整个图数据库。

举个例子，假设我们在图数据库中存储了许多用户的信息，每个用户都有一个唯一的用户名。如果我们要快速找到一个特定用户名的用户，就可以在图数据库中创建一个用户名索引。这样，我们就可以通过查询用户名索引来快速找到这个用户，而不必扫描整个图数据库。

总之，Neo4j索引可以提高查询效率，让我们能够快速找到满足特定条件的节点或关系。

34.如果你需要做一个实时交易系统，需要保证大数据和准确，你会选择那种Nosql呢？

Redis：

原因：

Redis是一个高性能的内存数据库，支持读写速度极快，因此可以保证实时性。
Redis支持多种数据类型，可以存储各种复杂的数据结构，因此可以方便我们在系统中存储多种类型的交易信息。
Redis支持主从复制和分布式集群，可以方便我们在高并发的情况下进行扩展，保证数据的准确性。

35.如果你需要做一个社保系统，需要保证大数据和准确，你会选择那种Nosql呢？

在设计社保系统时，MongoDB是一个很好的选择。这里列出几个主要原因：

高可扩展性：MongoDB是一个分布式数据库，可以方便地扩展到多台服务器，可以满足社保系统的大数据量需求。
高性能：MongoDB使用内存映射文件来维护数据，可以提供高性能的读写能力。
方便的数据存储和查询：MongoDB使用文档型数据模型，可以方便地存储各种复杂的数据结构，并提供丰富的查询功能。
可靠的数据备份和恢复：MongoDB提供了丰富的数据备份和恢复功能，可以保证社保系统数据的安全性。

总之，MongoDB提供了高可扩展性、高性能、方便的数据存储和查询以及可靠的数据备份和恢复能力，是设计社保系统的一个很好的选择。

36.如果你需要做一个秒杀系统，需要保证大数据和准确和高并发，你会选择那种Nosql呢？

如果我需要做一个秒杀系统，需要保证大数据和准确和高并发，我会选择使用Redis作为我的Nosql数据库。

Redis是一个开源的内存数据库，具有高性能、高并发、高可扩展性的特点，非常适合用于秒杀系统这种高并发、实时性要求比较高的场景。

具体来说，我可以使用Redis的计数器（Counter）功能来记录商品的库存数量，然后使用Redis的队列（Queue）功能来实现请求的排队和处理。这样，我就可以在保证准确性的同时，使用Redis的高并发能力来应对秒杀系统的高并发请求。

37.如果你需要做一个云盘系统，需要保证大数据和准确和安全，你会选择那种Nosql呢？

在这种情况下，我会选择Cassandra作为Nosql数据库。Cassandra是一种分布式数据库，具有高可用性和可扩展性。它可以通过多个节点并行处理数据来提高性能，并且可以通过复制和副本自动恢复来保证数据安全。此外，Cassandra还具有强大的数据模型，可以通过设置键值对来存储和组织数据，并且支持多种数据类型，包括基本类型、列表、集合和映射。

对于云盘系统而言，我们可以使用Cassandra来存储用户信息、文件信息和文件内容。例如，我们可以使用"user:username -> user_data"的形式来存储用户的信息，其中"user:username"是键，"user_data"是值，"username"是用户的用户名。我们还可以使用"file:file_id -> file_data"的形式来存储文件的信息，其中"file:file_id"是键，"file_data"是值，"file_id"是文件的ID。最后，我们可以使用"content:file_id -> file_content"的形式来存储文件的内容，其中"content:file_id"是键，"file_content"是值，"file_id"是文件的ID。

38.如果你需要做一个在线支付系统，需要保证大数据和准确和高并发以及安全，你会选择那种Nosql呢？

在这种情况下，我会考虑使用Redis来作为Nosql数据库。Redis具有高效的读写性能，能够支持大量的并发访问，同时也支持数据持久化，可以通过RDB和AOF两种方式来保证数据的安全性。此外，Redis还有丰富的数据结构和功能，可以通过使用特定的数据结构来实现一些复杂的业务逻辑。因此，我认为Redis是一个很好的选择，可以满足在线支付系统对于数据准确性，安全性和高并发性的要求。

实现步骤如下：

安装并启动Redis服务器。
使用Java或其他语言连接到Redis服务器，并创建一个Jedis对象来进行操作。
使用Redis的数据结构（例如hash、zset等）来存储支付信息。
使用Redis的事务机制来保证数据的准确性和完整性。
使用Redis的消息订阅功能来实现支付信息的发布和接收。
使用Redis的数据持久化功能来保证数

39.如果你需要做一个在线教育系统，需要保证大数据和经济便宜，你会选择那种Nosql呢？

在线教育系统需要保证大数据和经济便宜的话，可以考虑使用分布式的NoSQL数据库，例如Cassandra或者MongoDB。

Cassandra是一个开源的分布式数据库，它被设计用来处理大量的数据，并且能够扩展到几千个节点。它具有高可用性和容错性，并且能够以低成本进行扩展。

MongoDB是一个开源的文档型数据库，它被设计用来处理大量的数据，并且能够扩展到几千个节点。它具有高可用性和容错性，并且能够以低成本进行扩展。

40.如果你需要做一个在线选课系统，需要保证实时和准确，你会选择那种Nosql呢？

如果你需要做一个在线选课系统，需要保证实时和准确，你可以考虑使用Redis这种数据库。Redis是一种内存数据库，它的读写速度极快，可以满足实时数据读写的需求。此外，Redis还提供了许多功能，可以帮助你实现选课系统的功能，例如可以使用计数器记录选课人数，使用集合存储选课学生的ID，使用队列实现排队等功能。总之，Redis是一种非常适合用来构建在线选课系统的数据库。

41.如果你需要做一个购物商城系统，需要保证大数据和经济便宜，你会选择那种Nosql呢？

如果你需要做一个购物商城系统，需要保证大数据和经济便宜，你可以考虑使用MongoDB这种NoSQL数据库。MongoDB具有高扩展性和高性能，可以处理大量数据，同时具有经济便宜的优势。它支持文档存储，可以方便地存储商城中的商品信息和订单信息。此外，MongoDB还提供了强大的自动分片功能，可以轻松实现水平扩展，满足购物商城系统的高并发需求。

42.如果你需要做一个飞机导航系统，需要保证高可用性和准确性，你会选择那种Nosql呢？

对于飞机导航系统这样的应用，我们需要选择一个具有高可用性和准确性的数据库。其中一个很好的选择是Redis。

Redis是一个开源的内存数据库，具有高性能和可扩展性。它使用单线程架构，能够支持高达千万级别的读写操作。此外，Redis还提供了多种数据结构，如哈希表、列表、集合等，可以帮助我们满足不同的数据存储需求。

43.如果你需要做一个核电站安全系统，需要保证高可用性和安全性，你会选择那种Nosql呢？

如果要做一个核电站安全系统，需要保证高可用性和安全性，我会选择Cassandra作为Nosql数据库。Cassandra是一种分布式数据库系统，可以提供高可用性和容错能力。它使用一种叫做分布式共识（distributed consensus）的机制来保证数据的一致性和完整性，即使在多个节点中有一个或多个节点出现故障，系统仍然可以继续正常工作。此外，Cassandra还提供了对数据安全的高级保护功能，包括数据加密和访问控制。

44.如果你需要做一个族谱系统，你会选择那种Nosql呢？

对于族谱系统这种应用，可以考虑使用图数据库，例如Neo4j。图数据库可以很方便地存储和查询复杂的关系数据，因此非常适合用于建模族谱信息和家谱关系。可以使用节点表示家族成员，使用关系表示家庭成员之间的关系，并使用属性来存储成员的详细信息，例如名字、年龄、性别等。可以使用Cypher查询语言或者图数据库的API来查询族谱信息，例如查询某个人的父母、兄弟姐妹、子女等信息。

45.如果你需要做一个航天控制系统，你会选择那种Nosql呢？

如果你需要做一个航天控制系统，那么你可能会考虑选择一种高可用性和安全性较高的 NoSQL 数据库。具体选择哪种 NoSQL 数据库可能还需要考虑其他因素，比如系统的数据模型、数据的特点以及可用的硬件资源等。举个例子，如果你的航天控制系统需要处理大量的实时传感器数据，那么你可能考虑使用一种高吞吐量的 NoSQL 数据库，比如 Cassandra 或者 HBase。如果你的系统需要在大量不确定的网络延迟下进行实时通信，那么你可能考虑使用一种分布式消息系统，比如 RabbitMQ 或者 Apache Kafka。

47.Hbase适用于什么场景，举个例子

Hbase通常用于大数据分析和存储，因为它具有高性能、高可扩展性和高可用性的特点。例如，可以使用Hbase存储和分析大型社交网络的数据，进行趋势分析和用户画像。另外，Hbase还可以用于消息路由、时序数据存储和数据仓库等应用场景。

48.如果你需要做一个用户画像系统，你会选择那种Nosql呢？

如果你需要做一个用户画像系统，你可以考虑使用MongoDB这种Nosql数据库。MongoDB是一种文档型数据库，可以方便地存储和管理大量用户信息。例如，在用户画像系统中，可以使用MongoDB存储用户的个人信息，如年龄、性别、职业、居住地等，以及用户的行为信息，如浏览网站的内容、购买的商品等。通过对这些信息进行分析，可以了解用户的兴趣、偏好、消费习惯等，从而提供更好的产品和服务。

以上就是我的总结，希望对同学们的复习有帮助：)