Python 爬虫模拟器
创建时间:2020年1月21日
更新时间:2021年1月19日
工具:python、fiddler、爬虫模拟器
说明:适合http或https的请求
软件下载:https://download.csdn.net/download/weixin_44499757/19542867
1、安装fiddler抓包工具
2、安装python 环境
3、打开fiddler工具,然后打开浏览器访问你需要抓包的网站,此时你访问网站的数据将被fiddler截获。
4、点击网页请求头下边的“View In Notepad”,弹出一个文本内容。
5、复制文件内容,打开爬虫模拟器目录,更新config文件夹下的RawFile.htm(不要修改文件名)
修改后:
6、运行create_crawler.bat,/config/crawler_config.json更新成功
7、此时,就可运行爬虫了。运行run_crawler.bat,返回结果自动保存至outhtml文件下的RawFile2020.txt
8、以后,再次运行爬虫直接从第7步开始(除非有的网站有cookie、认证登录限制)。同时,我们可以根据需求修改run_crawler.py文件,设置循环运行时长,提取的内容进行二次加工分析等。
from model.crawler_model import rawCrawler
import time
import os
if __name__ == "__main__":
os.system("title 爬虫模拟器") # 设置命令行窗口标题
run_crawler = rawCrawler() # 创建爬虫类
while True:
# 网页提交数据
out_html = run_crawler.run_crawler()
#命令行显示网页结果
print("-"*20)
print(out_html)
print("-"*20)
# 将返回结果out_html写入文件outhtml文件夹下的RawFile2020.txt中
run_crawler.out_rawfile(out_html)
# 延时600秒
time.sleep(300)
print()