重点在扫盲
目录
一.奇奇怪怪的专业名词
1.1蜜罐
蜜罐是存在漏洞的,暴露在外网或者内网的一个虚假的机器
蜜罐分为几下几类:
1.低交互式:低交互式模拟常规的服务,服务存在漏洞,但是模拟的这些漏洞无法被利用,开发和维护这种类型的蜜罐比较容易。
2.高交互式:高交互式使用的是真实的服务,有助于发现服务存在的新漏洞,同时能够记录所有的攻击,但是,部署困难、维护成本高,一旦服务上存在的漏洞被利用,容易引发新的安全问题。
3.粘性蜜罐(Tarpits):这种类型的蜜罐,使用新的IP来生成新的虚拟机,模拟存在服务的漏洞,来做诱饵。因此攻击者会花费长时间来攻击,就有足够的时间来处理攻击,同时锁定攻击者。
还有其他类型的蜜罐,比如专门捕获恶意软件的,数据库漏洞利用程序和垃圾邮件等等。当部署两个或者两个以上蜜罐时可以称之为蜜网。
1.2 S盒变换
S盒变换是一种压缩替换,通过S盒将48位输入变为32位输出。共有8个S盒子,并行作用。每个S盒有6个输入,4个输出,是非线性压缩变换。
1.3Hadoop分布式文件系统
该部分来自原文链接:https://blog.csdn.net/yinyu19950811/article/details/84075209
Hadoop的核心是HDFS和Map-Reduce,两者只是理论基础,不是什么具体可使用的高级应用
Hadoop有一个称为HDFS的分布式系统(Hadoop Distributed FileSystem): 当数据集的大小超过一台独立物理计算机的存储能力时,就有必要对它进行分区并存储到若干台单独的计算机上。管理网络上跨多台计算机存储的文件系统称为 分布式文件系统。
而Map_Reduce是用于数据处理的一种编程模型,是hadoop的核心组件之一,可以通过map-reduce很容易在hadoop平台上进行分布式的计算编程。
1.HDFS
HDFS以流式数据访问模式来存储超大文件,它是谷歌的GFS提出之后出现的另外一种文件系统,它有一定高度的容错性,而且提供了高吞吐量的数据访问,非常适合大规模数据集上的应用。
其设计特点为大数据文件
文件分块存储
HDFS会将一个完整的大文件平均分块存储到不同计算器上,它的意义在于读取文件时可以从多个主机读取不同区块的文件,多主机读取比单主机读取效率要高得多。
硬件故障
HDFS认为所有计算机都可能会出问题,为了防止某个主机失效读取不到该主机的块文件,它将同一个文件块副本分配到其它某几个主机上,如果其中一台主机失效,可以迅速找另一块副本取文件。
流式数据访问:
HDFS的构建思路是这样的:一次写入,多次读取是最高效的访问模式。每次数据分析都涉及该数据集的大部分数据甚至全部,因此读取整个数据集的时间延迟比读取第一条记录的时间延迟更重要。
廉价硬件:
Hadoop并不需要运行在昂贵可靠的硬件上,它是设计运行在商用硬件的集群上的。因此对于庞大的集群来说,节点故障的几率还是非常高的。HDFS遇到上述故障时,被设计成能够继续运行且不让用户察觉到明显的中断。
低时间延迟的数据访问:
要求低时间延迟数据访问的应用,不适合在HDFS上运行。HDFS是为高数据吞吐量应用优化的,这可能会以高时间延迟为代价。
大量的小文件:
由于namenode将文件系统的元数据存储在内存中,所以因此该文件系统能够存储的文件总数受限于namenode的内存容量
多用户写入,任意修改文件:
HDFS中的文件可能只有一个writer,而且写操作总是将数据添加到文件的末尾。它不支持具有多个写入者的操作,也不支持在文件的任意位置进行修改。
HDFS优点
高吞吐量访问,高效性:HDFS的每个block分布在不同的rack上,在用户访问时,HDFS会计算使用最近和访问量最小的服务器给用户提供。由于block在不同的rack上都有备份,所以不再是单数据访问,所以速度和效率是非常快的。另外HDFS可以并行从服务器集群中读写,增加了文件读写的访问带宽。
高容错性,可靠性:上面简单的介绍了一下高度容错。系统故障是不可避免的,如何做到故障之后的数据恢复和容错处理是至关重要