CTF—Python爬虫-WEB目录爆破和指纹识别

最新推荐文章于 2024-09-10 11:05:55 发布

小常吃不下了

最新推荐文章于 2024-09-10 11:05:55 发布

阅读量1.9k

点赞数 2

分类专栏： CTF python爬虫文章标签： python unctf 爬虫指纹识别

本文链接：https://blog.csdn.net/weixin_52620919/article/details/119453578

版权

CTF 同时被 2 个专栏收录

32 篇文章 9 订阅

订阅专栏

python爬虫

4 篇文章 1 订阅

订阅专栏

编写自己的web目录爆破脚本。

首先我们要准备一个字典，用来爆破web目录，而且为了使扫描效果好一点，这个字典里面的内容几乎都是dedecms可能的目录。
其实要实现这个功能，原理很简单，只用读取字典文件中的每一项，与访问的url拼接成一个新的url，并对这个新的url发送GET请求，选出状态码为200的url，就是网站可以访问的url。当然为了使扫描的速度尽可能的快一些，还要使用多线程。

主要功能代码如下：在这里插入图片描述
线程的使用：

同时，为了防止网站有防爬机制，对UA进行了校验，也为了防止使用同一个UA进行多次访问，被网站禁掉，我们多准备一些UA，让程序每测试一个URL时，随机从中选出一个添加到请求头中：

3. 这样，我们的脚本就算完成了，我们想要的功能已经实现了

（这里需要提一下，虽然从我们下面的结果中可以看到，有的目录存在两个‘/’在一起的情况，
这跟我们的字典以及我们目标url输入的格式有关，
但是大部分的网站都不会因为这个而导致不能访问页面，
如果有人觉得实在难受，可以自己编写代码进行过滤，不是很难）。

在这里插入图片描述
4. 如果觉得直接在控制台输出不太方便，我们可以将结果输出到文件中：
5. 运行后我们的目录下会生成一个html文件。用浏览器查看后，可以直接点击url进行访问（另外，觉得生成的界面太丑的同学，可以加上自己的设计）。在这里插入图片描述
6. 另外应注意一点，我们这里使用的是字典进行目录爆破，而字典中的内容大部分情况下都是比较敏感的目录，比如管理员后台登录的地址啊什么的，所以这个脚本也可以称为敏感目录扫描。

如果觉得这样扫描的结果不够准确或者你不只是想扫到敏感目录，
也可以将之前实验中的代码做些修改，将爬取到的链接添加到我们的字典中，充实字典的内容。
当然，这样也只是一个简单的实现，如果想爬取整个网站的结构，
我们需要依次地去请求每一个链接，并循环地获取每个链接返回页面中的链接，
除此之外，还要判断链接是否重复，所请求的地址是否仍属于目标网站等等等等，

想做出一个大的工具，还是比较麻烦的。

编写web指纹识别脚本

1.CMS识别原理

CMS

【CMS】英文全称是：Content Management System 中文名称是：网站内容管理系统

  CMS识别原理就是得到一些CMS的一些固有特征，通过得到这个特征来判断CMS的类别。
  这里我们使用MD5识别和正则表达式识别的方式，
  就是用特定的文件路径访问网站，
  获得这个文件的MD5（这个文件一般不会被使用者修改）或者用正则表达式匹配某个关键词，
  如果匹配成功就说明这个是这个CMS。

2.首先，导入我们需要使用的库：在这里插入图片描述
3.先根据我们的原理来编写我们的主要函数：
在写代码之前，我们还需要考虑一下，线程应该在什么样的情况下退出，我们设定一个标志，它的初始值为True，当我们找到对应的CMS时，就将它的值设为False，这时就可以退出线程了：在这里插入图片描述

主要函数的代码如下（我们先访问特定的路径，在返回的信息中匹配关键字，如果匹配不到，再进行MD5值的比较，如果不成功，再匹配下一个，直到匹配出一个或者队列中的元素取完）：
4. 其次，编写其他的函数：
初始化参数、MD5加密函数：在这里插入图片描述
run()函数：
main()函数：
5.运行结果如下：
我们可以看到，运行结果并不是我们想象的那样，不是找回结果后就立即退出线程，而是返回了多个结果，也就是每个线程都找回了一个结果。出现这个问题的原因，主要是我们的线程启动放的位置不对，在main函数中，每启动一个线程，都会运行一次主要函数，也就是每次找到匹配的cms后只是退出了单个的线程，其他的线程还在运行，所以我们对代码进行如下修改：将队列的操作也封装到我们的类中：在这里插入图片描述
我们是用这种方式来启用线程：
最后，我们不再需要main函数，直接这样进行代码的运行：

6.应注意，扫描的结果并不是百分之百准确，当对扫描结果持怀疑态度时，也可以人工判断

而且，我们学习编写这个脚本的用意，并不是判断单个的网址，
这个脚本可以与url采集器结合使用，对采集到的url进行识别，再对这个脚本进行简单的升级，
可以做到将识别好的url保存在与之相对应的CMS分组中，这样方便对某CMS存在的漏洞进行批量的检测。

手工判断参考网址

小常吃不下了

关注

2
点赞
踩
19

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录