卌卄-CSDN博客

原创一、Yarn资源调度器

思考：1）如何管理集群资源？2）如何给任务合理分配资源？Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。（1）MR程序提交到客户端所在的节点。（2）Yarn。

2024-03-09 14:07:16 834

原创 winutils.exe-系统错误，由于找不到MSVCR120.dll,无法继续执行代码。重新安装程序可能会解决此问题。

双击 winutils.exe，如果报如下错误。说明缺少微软运行库（正版系统往往有这个问题）。再资料包里面有对应的微软运行库安装包双击安装即可。下载MSVBCRT_AIO_2018.07.31_X86+X64.exe文件并安装。由于找不到MSVCR120.dll,无法继续执行代码。重新安装程序可能会解决此问题。

2024-03-08 17:13:45 559

原创三、requests使用

r.encoding ：访问或定制编码方式。r.status_code ：响应的状态码。类型：models.Response。r.content ：响应的字节类型。r.headers ：响应的头信息。r.text : 获取网站源码。r.url ：获取请求的url。用户登陆 actionuser action。开发者登陆 actioncode action。3.response的属性以及类型。2：请求资源路径后面可以不加。4：不需要做请求对象的定制。（1）古诗文网（需要验证）3：不需要手动编解码。

2023-08-18 13:21:44 100

原创三、Selenium

元素定位：自动化要做的就是模拟鼠标和键盘来操作来操作这些元素，点击、输入等等。操作这些元素前首先要找到它们，WebDriver。测试直接运行在浏览器中，就像真正的用户在操作一样。（2）谷歌驱动和谷歌浏览器版本之间的映射表。Windows 系统需要。渲染，运行效率要比真实的浏览器要快很多。版新增加的一种模式，可以让你不打开。（1）操作谷歌浏览器驱动下载地址。模拟浏览器功能，自动执行网页中的。也是支持无界面浏览器操作的。）驱动真实浏览器完成测试。（1）是一个无界面的浏览器。（3）查看谷歌浏览器版本。

2023-08-15 21:33:47 110

原创二、解析（xpath、JsonPath、BeautifulSoup）

obj = json.load(open('json文件', 'r', encoding='utf‐8'))find_all(['a', 'span']) 返回所有的a。find_all('a', limit=2) 只找前两个a。obj.attrs.get('title')【常用】find('a', class_='名字')find('a', title='名字')find_all('a') 查找到所有的a。find('a')：只找到第一个a。(2).find_all(返回一个列表。

2023-08-14 20:39:28 135

原创一、Urllib详解

如果我们把互联网比作一张大的蜘蛛网，那一台计算机上的数据便是蜘蛛网上的一个猎物，而爬虫程序就是一只小蜘蛛，沿着蜘蛛网抓取自己想要的数据解释1：通过一个程序，根据Urlhttp//wwwtaobaocom进行爬取网页，获取有用信息解释2：使用程序模拟浏览器，去向服务器发送请求，获取响应信息。

2023-08-13 16:27:22 1957

原创五、Hadoop数据压缩

即使你的MapReduce的输入输出文件都是未压缩的文件，你仍然可以对Map任务的中间结果输出做压缩，因为它要写在硬盘并且通过网络传输到Reduce节点，对其压缩可以提高很多性能，这些工作只要设置两个属性即可，我们来看下代码怎么设置。mapreduce.output.fileoutputformat.compress.codec（在mapred-site.xml中配置）mapreduce.map.output.compress.codec（在mapred-site.xml中配置）缺点：不支持Split；

2023-08-11 18:57:30 134

原创四、MapReduce框架原理（OutputFormat数据输出、MapReduce内核源码解析、Join应用、数据清洗（ETL）、MapReduce开发总结）

每轮合并mapreduce.task.io.sort.factor（默认10）个文件，并将产生的文件重新加入待合并列表中，对文件排序后，重复以上过程，直到最终得到一个大文件。缺点：这种方式中，合并的操作是在Reduce阶段完成，Reduce端的处理压力太大，Map节点的运算负载则很低，资源利用率不高，且在Reduce阶段极易产生数据倾斜。通过将关联条件作为Map输出的key，将两表满足Join条件的数据并携带数据所来源的文件信息，发往同一个ReduceTask，在Reduce中进行数据的串联。

2023-08-11 14:53:37 76

原创三、MapReduce框架原理（InputFormat数据输入、MapReduce工作流程、Shuffle机制）

剩余的大小为4.02M，如果按照4M逻辑划分，就会出现0.02M的小的虚拟存储文件，所以将剩余的4.02M文件切分成（2.01M和2.01M）两个文件。CombineTextInputFormat用于小文件过多的场景，它可以将多个小文件从逻辑上规划到一个切片中，这样，多个小文件就可以交给一个MapTask处理。手机号136、137、138、139开头都分别放到一个独立的4个文件中，其他开头的放到一个文件中。educe程序的执行效率，原则上说，缓冲区越大，磁盘io的次数越少，执行速度就越快。

2023-08-04 21:24:16 140 1

原创二、Hadoop序列化

Java的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息，Header，继承体系等），不便于在网络中高效传输。（7）如果需要将自定义的bean放在key中传输，则还需要实现Comparable接口，因为MapReduce框中的Shuffle过程要求对key必须能排序。（6）要想把结果显示在文件中，需要重写toString()，可用"\t"分开，方便后续用。序列化可以存储“活的”对象，可以将“活的”对象发送到远程计算机。

2023-08-02 21:10:23 36

原创一、MapReduce概述

也就是说你写一个分布式程序，跟写一个简单的串行程序是一模一样的。（3）修改不带依赖的jar包名称为wc.jar，并拷贝该jar包到Hadoop集群的/opt/module/hadoop-3.1.3路径。（2）在项目的src/main/resources目录下，新建一个文件，命名为“log4j.properties”，在文件中填入。MapReduce设计的初衷就是使程序能够部署在廉价的PC机器上，这就要求它具有很高的容错性。的编程框架，是用户开发“基于Hadoop的数据分析应用”的核心框架。

2023-08-01 14:41:14 40 1

原创 Error: Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster

安装目录下找到mapred-site.xml文件（$HADOOP_HOME/etc/hadoop/mapred-site.xml）,添加以下配置。复制路径后，在Hadoop安装目录下找到。重启Hadoop集群。

2023-08-01 14:27:09 675

原创 Unable to initialize MapOutputCollector org.apache.hadoop.mapred.MapTask$MapOutputBuffer

【代码】Unable to initialize MapOutputCollector org.apache.hadoop.mapred.MapTask$MapOutputBuffer。

2023-08-01 12:36:46 205

原创 Exception in thread “main“ org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory f

2.出现org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;3.将F:\vm\hadoop\hadoop-3.1.0\bin中的hadoop.dll 文件拷到C:\Windows\System32 中。1.删除output目录，再次运行。目录中出现output。

2023-08-01 12:25:56 1716

原创六、DataNode

思考：如果电脑磁盘里面存储的数据是控制高铁信号灯的红灯信号（1）和绿灯信号（0），但是存储该数据的磁盘坏了，一直显示是绿灯，是否很危险？同理 DataNode 节点上的数据损坏了，却没有发现，是否也很危险，那么如何解决呢？本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。的命令如复制块数据到另一台机器，或删除某个数据块。上以文件形式存储在磁盘上，包括两个文件，一个是数据。扫描自己节点块信息列表的时间，默认。的心跳，则认为该节点不可用。注册，通过后，周期性（（4）常见的校验算法。

2023-07-31 22:14:07 33 1

原创五、NameNode 和 SecondaryNameNode

节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效率过低。因此，元数据需要存放在内存中。但如果只存在内存中，一旦断电，元数据丢失，整个集群就无法工作了。中，会导致该文件数据过大，效率降低，而且一旦断电，恢复元数据需要的时间过长。文件（只进行追加操作，效率很高）。每当元数据有更新或者添加元数据时，修改内存中的元数据并追加到 Edits。这样又会带来新的问题，当在内存中的元数据更新时，如果同时更新 FsImage。，就会导致效率过低，但如果不更新，就会发生一致性问题，一旦 NameNode。

2023-07-31 18:20:04 51 1

原创四、HDFS 的读写流程（面试重点）

（先从磁盘读取数据放到一个本地内存缓存），以 Packet。NameNode 检查目标文件是否已存在，父目录是否存在。通过查询元数据，找到文件块所在的 DataNode。开始传输数据给客户端（从磁盘里面读取数据输入流，以。节点距离：两个节点到达最近的共同祖先的距离总和。（就近原则，然后随机）服务器，请求读取数据。为单位接收，先在本地缓存，然后写入目标文件。会选择距离待上传数据最近距离的。大家算一算每两个节点之间的距离。传输完成之后，客户端再次请求。标记，这里给出四种距离描述。，将这个通信管道建立完成。

2023-07-31 16:14:54 28 1

原创三、HDFS 的 API 操作

注意：这里的Maven博主没有用系统默认的那个，那个下载地址在国外，下载依赖十分慢，同时那个自带的Maven跟很多的jar包的都不兼容，不好用，博主重新从官网下载了个Maven并配置了。已知服务器的默认配置（xxx-default.xml）中的副本数是3，现在resources下新建一个file——hdfs-site.xml修改副本数。注意：如果执行上面代码，下载不了文件，有可能是你电脑的微软支持的运行库少，需要安装一下微软运行库。（2）服务器的自定义配置（xxx-site.xml。

2023-07-31 12:14:06 106

原创 Maven安装与配置

Apache Maven是一个（特别是）项目管理及自动构建工具，由Apache软件基金会所提供。基于项目对象模型（缩写：POM）概念，Maven利用一个中央信息片断能管理一个项目的构建、报告和文档等步骤。

2023-07-30 16:14:02 798 1

原创二、HDFS 的 Shell 操作（开发重点）

safely : 是否开启安全模式，删除大文件时需要确认(大文件通过 hadoop.shell.delete.limit.num.files 设置)如果目前只有 3个 DataNode节点，最多也就 3 个副本，只有节点数的增加到 10 台时，副本数才能达到 10。-q : 要使用的线程池队列大小，默认为1024。-s : 对指定的目录求和，否则会遍历指定的目录。

2023-07-30 14:06:49 55 1

原创一、HDFS 概述

随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。

2023-07-30 11:56:43 38 1

原创六、历史服务器配置、日志配置、集群同步

如果服务器在内网环境，必须要配置集群时间同步，否则时间久了，会产生时间偏差，找一个机器，作为时间服务器，所有的机器与这台集群时间进行定时的同步，生产环境。为了查看程序的历史运行情况，需要配置一下历史服务器。日志聚集功能好处：可以方便的查看到程序运行详情，方便开发调试。如果服务器在公网环境（能连接外网），可以不采用集群时间同步。当该节点丢失网络连接，依然可以采用本地时间作为时间服务器为集群中。（集群在局域网中，不使用其他互联网上的时间）增加内容如下（让硬件时间与系统时间一起同步）导致集群执行任务时间不同步。

2023-07-30 11:15:53 389 1

原创五、集群配置、集群启动、常用脚本

3.1各个模块分开启动停止（配置ssh是前提）常用1）整体启动停止HDFS（2）整体启动/停止YARN3.2各个服务组件逐一启动停止1）分别启动停止HDFS组件（2）启动停止YARN。

2023-07-29 19:21:06 800

原创四、Hadoop 运行模式--编写集群分发脚本xsync

rsync 和 scp 区别：用 rsync 做文件的复制要比 scp 的速度快，rsync 只对差异文件做更。scp 可以实现服务器与服务器之间的数据拷贝。具有速度快、避免复制相同内容和支持符号链接的优点。（c）期望脚本在任何路径都能使用（脚本放在声明了全局环境变量的路径）注意：如果用了 sudo，那么 xsync 一定要给它的路径补全。（1）需求：循环复制文件到所有节点的相同目录下。（e）同步环境变量配置（root 所有者）个别缺钱的公司用来测试，生产环境不用。scp 是把所有文件都复制过去。

2023-07-28 19:03:37 836 1

原创三、JDK、Hadoop安装（hadoop102）

注意：安装 JDK 前，一定确保提前删除了虚拟机自带的 JDK。

2023-07-28 15:18:57 379 1

原创二、hadoop集群搭建，克隆虚拟机

注：hadoop101留给了一个尾分布式，单台服务器的操作使用，102，103，104搭建的是完全分布式，真正的集群，后续所有配置框架基于这个来的。1、利用模板机hadoop100，克隆三台虚拟机：hadoop102、hadoop103、hadoop104。依次克隆出hadoop102，hadoop103，hadoop104。最后ping外网，ping通外网，且将xshell也配置好。创建链接克隆：类似创建快捷方式，因此选创建完整克隆。3、配置克隆出来的虚拟机的IP地址，主机名称。2.1点击管理→克隆。

2023-07-27 22:36:03 461

原创一、hadoop100模板机配置

注：Extra Packages for Enterprise Linux 是为“红帽系”的操作系统提供额外的软件包，适用于 RHEL、CentOS 和 Scientific Linux。注意：xjx这一行不要直接放到 root 行下面，因为所有用户都属于 wheel 组，你先配置了 xjx具有免密功能，但是程序执行到%wheel 行时，该功能又被覆盖回需要密码。注意：在企业开发时，通常单个服务器的防火墙时关闭的。注意：如果你的虚拟机是最小化安装不需要执行这一步。➢ grep -i：忽略大小写。

2023-07-27 19:34:20 232

转载 Yum安装vim（CentOS）

Yum是一种易于使用的Linux包管理器，可以通过互联网连接到软件库并用于安装、更新和删除软件包。使用软件包管理器安装软件包是Linux系统管理的一项基本任务。

2023-07-22 21:26:03 1445

weixin_44340038的博客