自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 一、Yarn资源调度器

思考:1)如何管理集群资源?2)如何给任务合理分配资源?Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。(1)MR程序提交到客户端所在的节点。(2)Yarn。

2024-03-09 14:07:16 817

原创 winutils.exe-系统错误,由于找不到MSVCR120.dll,无法继续执行代码。重新安装程序可能会解决此问题。

双击 winutils.exe,如果报如下错误。说明缺少微软运行库(正版系统往往有这个问题)。再资料包里面有对应的微软运行库安装包双击安装即可。下载MSVBCRT_AIO_2018.07.31_X86+X64.exe文件并安装。由于找不到MSVCR120.dll,无法继续执行代码。重新安装程序可能会解决此问题。

2024-03-08 17:13:45 384

原创 三、requests使用

r.encoding :访问或定制编码方式。r.status_code :响应的状态码。类型 :models.Response。r.content :响应的字节类型。r.headers :响应的头信息。r.text : 获取网站源码。r.url :获取请求的url。用户登陆 actionuser action。开发者登陆 actioncode action。3.response的属性以及类型。2: 请求资源路径后面可以不加。4: 不需要做请求对象的定制。(1)古诗文网(需要验证)3: 不需要手动编解码。

2023-08-18 13:21:44 91

原创 三、Selenium

元素定位:自动化要做的就是模拟鼠标和键盘来操作来操作这些元素,点击、输入等等。操作这些元素前首先 要找到它们,WebDriver。测试直接运行在浏览器中,就像真正的用户在操作一样。(2)谷歌驱动和谷歌浏览器版本之间的映射表。Windows 系统需要。渲染,运行效率要比真实的浏览器要快很多。版 新增加的一种模式,可以让你不打开。(1)操作谷歌浏览器驱动下载地址。模拟浏览器功能,自动执行网页中的。也是支持无界面浏览器操作的。)驱动真实浏览器完成测试。(1)是一个无界面的浏览器。(3)查看谷歌浏览器版本。

2023-08-15 21:33:47 100

原创 二、解析(xpath、JsonPath、BeautifulSoup)

obj = json.load(open('json文件', 'r', encoding='utf‐8'))find_all(['a', 'span']) 返回所有的a。find_all('a', limit=2) 只找前两个a。obj.attrs.get('title')【常用】find('a', class_='名字')find('a', title='名字')find_all('a') 查找到所有的a。find('a'):只找到第一个a。(2).find_all(返回一个列表。

2023-08-14 20:39:28 112

原创 一、Urllib详解

如果我们把互联网比作一张大的蜘蛛网,那一台计算机上的数据便是蜘蛛网上的一个猎物,而爬虫程序就是一只小 蜘蛛,沿着蜘蛛网抓取自己想要的数据解释1:通过一个程序,根据Urlhttp//wwwtaobaocom进行爬取网页,获取有用信息解释2:使用程序模拟浏览器,去向服务器发送请求,获取响应信息。

2023-08-13 16:27:22 1921

原创 五、Hadoop数据压缩

即使你的MapReduce的输入输出文件都是未压缩的文件,你仍然可以对Map任务的中间结果输出做压缩,因为它要写在硬盘并且通过网络传输到Reduce节点,对其压缩可以提高很多性能,这些工作只要设置两个属性即可,我们来看下代码怎么设置。mapreduce.output.fileoutputformat.compress.codec(在mapred-site.xml中配置)mapreduce.map.output.compress.codec(在mapred-site.xml中配置)缺点:不支持Split;

2023-08-11 18:57:30 80

原创 四、MapReduce框架原理(OutputFormat数据输出、MapReduce内核源码解析、Join应用、 数据清洗(ETL)、MapReduce开发总结)

每轮合并mapreduce.task.io.sort.factor(默认10)个文件,并将产生的文件重新加入待合并列表中,对文件排序后,重复以上过程,直到最终得到一个大文件。缺点:这种方式中,合并的操作是在Reduce阶段完成,Reduce端的处理压力太大,Map节点的运算负载则很低,资源利用率不高,且在Reduce阶段极易产生数据倾斜。通过将关联条件作为Map输出的key,将两表满足Join条件的数据并携带数据所来源的文件信息,发往同一个ReduceTask,在Reduce中进行数据的串联。

2023-08-11 14:53:37 57

原创 三、MapReduce框架原理(InputFormat数据输入、MapReduce工作流程、Shuffle机制)

剩余的大小为4.02M,如果按照4M逻辑划分,就会出现0.02M的小的虚拟存储文件,所以将剩余的4.02M文件切分成(2.01M和2.01M)两个文件。CombineTextInputFormat用于小文件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,这样,多个小文件就可以交给一个MapTask处理。手机号136、137、138、139开头都分别放到一个独立的4个文件中,其他开头的放到一个文件中。educe程序的执行效率,原则上说,缓冲区越大,磁盘io的次数越少,执行速度就越快。

2023-08-04 21:24:16 121 1

原创 二、Hadoop序列化

Java的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,Header,继承体系等),不便于在网络中高效传输。(7)如果需要将自定义的bean放在key中传输,则还需要实现Comparable接口,因为MapReduce框中的Shuffle过程要求对key必须能排序。(6)要想把结果显示在文件中,需要重写toString(),可用"\t"分开,方便后续用。序列化可以存储“活的”对象,可以将“活的”对象发送到远程计算机。

2023-08-02 21:10:23 30

原创 一、MapReduce概述

也就是说你写一个分布式程序,跟写一个简单的串行程序是一模一样的。(3)修改不带依赖的jar包名称为wc.jar,并拷贝该jar包到Hadoop集群的/opt/module/hadoop-3.1.3路径。(2)在项目的src/main/resources目录下,新建一个文件,命名为“log4j.properties”,在文件中填入。MapReduce设计的初衷就是使程序能够部署在廉价的PC机器上,这就要求它具有很高的容错性。的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。

2023-08-01 14:41:14 35 1

原创 Error: Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster

安装目录下找到mapred-site.xml文件($HADOOP_HOME/etc/hadoop/mapred-site.xml),添加以下配置。复制路径后,在Hadoop安装目录下找到。重启Hadoop集群。

2023-08-01 14:27:09 446

原创 Unable to initialize MapOutputCollector org.apache.hadoop.mapred.MapTask$MapOutputBuffer

【代码】Unable to initialize MapOutputCollector org.apache.hadoop.mapred.MapTask$MapOutputBuffer。

2023-08-01 12:36:46 162

原创 Exception in thread “main“ org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory f

2.出现org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;3.将F:\vm\hadoop\hadoop-3.1.0\bin中的hadoop.dll 文件拷到C:\Windows\System32 中。1.删除output目录,再次运行。目录中出现output。

2023-08-01 12:25:56 1403

原创 六、DataNode

思考:如果电脑磁盘里面存储的数据是控制高铁信号灯的红灯信号(1)和绿灯信号(0), 但是存储该数据的磁盘坏了,一直显示是绿灯,是否很危险?同理 DataNode 节点上的数据 损坏了,却没有发现,是否也很危险,那么如何解决呢?本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。的命令如复制块数据到另一台机器,或删除某个数据块。上以文件形式存储在磁盘上,包括两个文件,一个是数据。扫描自己节点块信息列表的时间,默认。的心跳,则认为该节点不可用。注册,通过后,周期性((4)常见的校验算法。

2023-07-31 22:14:07 27 1

原创 五、NameNode 和 SecondaryNameNode

节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。中,会导致该文件数据过大,效率降低,而且一旦断电,恢复元数据需要的时间过长。文件(只进行追加操作,效率很高)。每当元数据有更新或者添 加元数据时,修改内存中的元数据并追加到 Edits。这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新 FsImage。,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦 NameNode。

2023-07-31 18:20:04 45 1

原创 四、HDFS 的读写流程(面试重点)

(先从磁盘读取数据放到一个本地内存缓存), 以 Packet。NameNode 检查目标文件是否已存在,父目录是否存在。通过查询元数据,找到文件块所在的 DataNode。开始传输数据给客户端(从磁盘里面读取数据输入流,以。节点距离:两个节点到达最近的共同祖先的距离总和。(就近原则,然后随机)服务器,请求读取数据。为单位接收,先在本地缓存,然后写入目标文件。会选择距离待上传数据最近距离的。大家算一算每两个节点之间的距离。传输完成之后,客户端再次请求。标记,这里给出四种距离描述。,将这个通信管道建立完成。

2023-07-31 16:14:54 23 1

原创 三、HDFS 的 API 操作

注意:这里的Maven博主没有用系统默认的那个,那个下载地址在国外,下载依赖十分慢,同时那个自带的Maven跟很多的jar包的都不兼容,不好用,博主重新从官网下载了个Maven并配置了。已知服务器的默认配置 (xxx-default.xml) 中的副本数是3,现在resources下新建一个file——hdfs-site.xml修改副本数。注意:如果执行上面代码,下载不了文件,有可能是你电脑的微软支持的运行库少,需要安装一下微软运行库。(2)服务器的自定义配置(xxx-site.xml。

2023-07-31 12:14:06 76

原创 Maven安装与配置

Apache Maven是一个(特别是)项目管理及自动构建工具,由Apache软件基金会所提供。基于项目对象模型(缩写:POM)概念,Maven利用一个中央信息片断能管理一个项目的构建、报告和文档等步骤。

2023-07-30 16:14:02 528 1

原创 二、HDFS 的 Shell 操作(开发重点)

safely : 是否开启安全模式,删除大文件时需要确认(大文件通过 hadoop.shell.delete.limit.num.files 设置)如果目前只有 3个 DataNode节点,最多也就 3 个副本,只有节点数的增加到 10 台时,副本数才能达到 10。-q : 要使用的线程池队列大小,默认为1024。-s : 对指定的目录求和,否则会遍历指定的目录。

2023-07-30 14:06:49 45 1

原创 一、HDFS 概述

随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。

2023-07-30 11:56:43 34 1

原创 六、历史服务器配置、日志配置、集群同步

如果服务器在内网环境,必须要配置集群时间同步,否则时间久了,会产生时间偏差,找一个机器,作为时间服务器,所有的机器与这台集群时间进行定时的同步,生产环境。为了查看程序的历史运行情况,需要配置一下历史服务器。日志聚集功能好处:可以方便的查看到程序运行详情,方便开发调试。如果服务器在公网环境(能连接外网),可以不采用集群时间同步。当该节点丢失网络连接,依然可以采用本地时间作为时间服务器为集群中。(集群在局域网中,不使用其他互联网上的时间)增加内容如下(让硬件时间与系统时间一起同步)导致集群执行任务时间不同步。

2023-07-30 11:15:53 357 1

原创 五、集群配置、集群启动、常用脚本

3.1各个模块分开启动停止(配置ssh是前提)常用1)整体启动停止HDFS(2)整体启动/停止YARN3.2各个服务组件逐一启动停止1)分别启动停止HDFS组件(2)启动停止YARN。

2023-07-29 19:21:06 581

原创 四、Hadoop 运行模式--编写集群分发脚本xsync

rsync 和 scp 区别:用 rsync 做文件的复制要比 scp 的速度快,rsync 只对差异文件做更。scp 可以实现服务器与服务器之间的数据拷贝。具有速度快、避免复制相同内容和支持符号链接的优点。(c)期望脚本在任何路径都能使用(脚本放在声明了全局环境变量的路径)注意:如果用了 sudo,那么 xsync 一定要给它的路径补全。(1)需求:循环复制文件到所有节点的相同目录下。(e)同步环境变量配置(root 所有者)个别缺钱的公司用来测试,生产环境不用。scp 是把所有文件都复制过去。

2023-07-28 19:03:37 503 1

原创 三、JDK、Hadoop安装(hadoop102)

注意:安装 JDK 前,一定确保提前删除了虚拟机自带的 JDK。

2023-07-28 15:18:57 338 1

原创 二、hadoop集群搭建,克隆虚拟机

注:hadoop101留给了一个尾分布式,单台服务器的操作使用,102,103,104搭建的是完全分布式,真正的集群,后续所有配置框架基于这个来的。1、利用模板机hadoop100,克隆三台虚拟机:hadoop102、hadoop103、hadoop104。依次克隆出hadoop102,hadoop103,hadoop104。最后ping外网,ping通外网,且将xshell也配置好。创建链接克隆:类似创建快捷方式,因此选创建完整克隆。3、配置克隆出来的虚拟机的IP地址,主机名称。2.1点击管理→克隆。

2023-07-27 22:36:03 326

原创 一、hadoop100模板机配置

注:Extra Packages for Enterprise Linux 是为“红帽系”的操作系统提供额外的软件包,适用于 RHEL、CentOS 和 Scientific Linux。注意:xjx这一行不要直接放到 root 行下面,因为所有用户都属于 wheel 组,你先配置了 xjx具有免密功能,但是程序执行到%wheel 行时,该功能又被覆盖回需要密码。注意:在企业开发时,通常单个服务器的防火墙时关闭的。注意:如果你的虚拟机是最小化安装不需要执行这一步。➢ grep -i:忽略大小写。

2023-07-27 19:34:20 194

转载 Yum安装vim(CentOS)

Yum是一种易于使用的Linux包管理器,可以通过互联网连接到软件库并用于安装、更新和删除软件包。使用软件包管理器安装软件包是Linux系统管理的一项基本任务。

2023-07-22 21:26:03 993

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除