自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 怎么爬取多页数据呢?

for page in range(1,5): # 假设要爬取1到4页的数据url = f'https://cd.zu.ke.com/zufang/pg{page}' # 替换成你要爬取的网址模板,使用适当的占位符来表示页数# 发送HTTP请求获取页面内容# 在这里编写处理页面内容的代码# 打印新列表else:print(f'无法获取页面 {url} 的内容')

2023-10-13 22:35:40 308

原创 flume的安装

flume-env.sh环境变量配置 cd/export/servers/flume/conf/ // 进入配置环境目录 ls-l // 找到文件。将文件夹apache-flume-1.9.0-bin改名为flume,输入命令:mv apache-flume-1.9.0-bin flume。按i键进入插入模式,添加内容为(自己jdk的安装路径):export JAVA_HOME=/usr/java/latest。进入/opt/flume/conf/目录下,输入命令:cd /opt/flume/conf/

2023-10-13 21:27:56 96

原创 第一篇flume配置文件

启动配置文件flume-ng agent -n a1 --conf-file nc-flume.conf -Dflume.root.logger=INF0,console。flume从source获取的数据存储在body中,它的header是null,可以传值,在多路复用、扇出区分event发到哪个channel 或者sink。type = org.apache.flume.sink.kafka.KafkaSink  =>将数据传输到kafka。可以对一个source指定多个拦截器,按先后顺序依次处理。

2023-10-13 15:59:38 133

原创 第二篇学期作业

在各个目录都有专用的核心代码,比如:jdk的安装,先进行下载,在 /opt下创建tage目录核心代码为 mkdir /opt/tage,再进行上传及进入下一步操作。从HDFS的一个路径拷贝到HDFS的另一个路径。在HDFS目录中移动剪切文件。解压核心代码:tar -zxvf jdk-8u144-linux-x64.tar.gz -C ../server/(注意自己的路径)各个路径需要执行检查,再进行下一步。这学期学习到的就是跟着同学不落下,一起进步。以及知识梳理,知识梳理上一期已经发布,可去参考。

2023-10-06 12:09:10 46 1

原创 第一篇学期作业

这学期,我们学习了Linux的搭建,VMWare的下载与安装,虚拟机的网路配置,修改配置文件和,免密设置,Hadoop集群搭建和部署,jdk安装与配置,以及修改Hadoop配置文件,最后的拷贝。

2023-10-06 11:27:21 31 1

原创 Requests模块

Python requests 是一个常用的 HTTP 请求库,可以方便地向网站发送 HTTP 请求,并获取响应结果。requests 模块比模块更简洁。

2023-10-03 13:28:37 775 1

原创 python爬虫入门之HTTP协议

中文名:超文本传送协议 外文名:Hypertext Transfer Protocol。

2023-10-03 12:25:02 148 1

原创 修改Hadoop配置文件都遇到什么问题了呢?

检查配置项是否存在于正确的配置文件中:Hadoop有多个配置文件,每个配置文件都有特定的作用和范围。确保您在正确的配置文件中查找和修改配置项。检查Hadoop版本和配置文件兼容性:确保您正在使用的Hadoop版本与您参考的文档或示例的版本相匹配。查阅官方文档或配置文件示例:如果您仍然无法找到或识别配置项,可以查阅Hadoop官方文档或相应版本的配置文件示例。为了避免以上问题,建议在修改Hadoop配置文件之前,先备份原始配置文件,同时注意配置文件的语法、配置项的正确性和适用性,以及权限的设置。

2023-09-24 16:10:14 222 1

原创 CSDN的使用指南

首先,CSDN编程社区是一个面向程序员的在线社区,提供了丰富的学习资源和交流平台。在这里,您可以找到各种编程语言、框架和工具的教程、文档和代码示例,以及与其他程序员交流和分享经验的场所。而CSDN编程社区下载则是该社区的一个特色功能,它为广大程序员提供了一个便捷的资源获取途径。在CSDN编程社区下载页面中,您可以找到各种热门技术和框架的文档、源代码和工具等资源。CSDN 是一个中文资讯技术知识服务网站,创立于1999年,致力于为中国软件开发者提供知识传播,在线学习,职业发展等全部生命周期服务。

2023-09-24 15:40:23 247 1

原创 Hadoop知识梳理(一)

命令13:vim+文件名称(创建/打开文件(适合长文本的文件进行书写插入))命令14:grep+字符串内容+文件名称(查找文件中是否包含该字符串)命令10:cp+需要复制的文件+复制的新路径(复制文件)命令9:mv+需要移动的文件+移动到的目录(移动文件)命令2:pwd(显示用户在哪个目录下(绝对路径))命令11:man ls(查看各种命令的含义指令)命令3:cd+目录名称(将用户切换到指定目录)cp-r +复制的目录+复制的路径(复制目录)echo+字符串+>存在的文件(写文件)

2023-09-17 14:41:00 41 1

原创 PYTHON基础知识(一)

print(union) # 输出:{1, 2, 3, 4, 5, 6, 7, 8}6.print(str[1:5:2]) # 输出从第二个开始到第五个且每隔一个的字符(步长为2)求交集:可以使用集合的intersection()方法或&运算符来找到两个集合的交集。注意:需要注意的是,除法运算的结果是一个浮点数(即带有小数点的数值),4.print(str[2:5]) # 输出从第三个开始到第六个的字符(不包含)求并集:可以使用集合的union()方法或|运算符来找到两个集合的并集。

2023-09-17 13:20:14 52 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除