DeadLinkHunter
文章平均质量分 61
工具可以将整个文档中心的链接爬取下来、去重、请求、存储、分析,找出那部分访问后页面是空的或者提示页面内容不存在的链接和该链接对应的父链接和文案,通过父链接和父链接的页面找到失效链接的文案,就能定位到失效链接,进行修复。
飘凛枫叶
枫叶测试
展开
-
DeadLinkHunter工具
现在互联网的前端页面,99%都使用了Ajax异步加载,使用Ajax异步加载的页面,直接请求url的返回是获取不到页面全部源码的,目前没有见过那个死链接检查工具是可以获取动态页面的源码的。所以,需要一个工具可以将整个文档中心的链接爬取下来、去重、请求、存储、分析,找出那部分访问后页面是空的或者提示页面内容不存在的链接和该链接对应的父链接和文案,通过父链接和父链接的页面找到失效链接的文案,就能定位到失效链接。原创 2024-01-22 11:07:32 · 1432 阅读 · 0 评论 -
DeadLinkHunter工具支持英文爬取
中文和英文的链接是一样的。只根据这个字段 rcconsole-language-key 控制,访问得到的是英文还是中文。1.通过 driver.get_cookies() 获取到的全部的cookie,默认就是中文的。2.根云的中英文,是通过修改cookie的这个字段来实现是中文还是英文。原创 2024-01-22 15:36:35 · 353 阅读 · 0 评论 -
cookie in selenium & 定时更新token
公司的cookie的token默认的有效期是1小时,如果爬虫的时间超过1小时后,1小时后的链接都会爬取失败,所以,需要判断执行时间超过一定阈值,则更新cookie的token。",此时selenium取到的cookie的domain是:.console.org.com。”,也是不匹配,访问失败,所以需要手动定义domain,可以取相同部分:.org.com。1.selenium添加cookie访问 需要登录才能访问的链接。而domain 是 .console.org.com 去访问 “原创 2024-01-22 15:27:37 · 579 阅读 · 0 评论 -
pytest&allure分析redis的数据并动态生成testCase报告
pytest.mark.parametrize 是一个pytest的装饰器,它可以用于将参数传递给测试函数。使用 pytest.mark.parametrize 装饰器时,需要在装饰器中指定参数名称和参数值。对于多个参数,可以使用多个装饰器。下面是一些使用 pytest.mark.parametrize 的示例:在第一个示例中,test_addition 测试函数将三个参数(x、y 和 expected)作为输入。参数值列表包含三个元组,每个元组都包含一组参数值。pytest将运行每个元组的所有参数值组合,原创 2024-01-22 14:49:31 · 909 阅读 · 0 评论 -
scrapy pipelines
如果您需要手动启动传输,或者需要在某个特定时间点执行代码,则可能需要使用 close_spider 方法。数据保存到redis后,在爬虫结束方法退出driver,否则下次再跑就会报502超时链接不到docker selenium的driver,因为docker的driver的进程没有释放。此方法可以由用户手动调用,也可以在 Scrapy 引擎检测到爬虫结束时自动调用。因此,close_spider方法和spider_closed方法在实现上可以相似,但它们基于两个不同的场景,需要根据具体情况使用。原创 2024-01-22 14:28:58 · 538 阅读 · 0 评论 -
重启ks容器自动化
试过在scrapy框架里面调用 重启ks容器自动化的脚本,可还是经常出现连接remote-selenium超时的情况,猜测还是因为重启ks容器自动化的顺序不能在scrapy创建driver对象之前。上面的场景都会导致容器里面的driver进程没有被释放,下次再跑selenium脚本,就会报错:502超时,链接不到remote driver。解决方法,每次跑脚本前,手动重启一下容器,但是,如果在集成工具去执行脚本,不可能每次跑脚本前都去手动重启容器。所以,需要通过代码自动化实现这一手动操作。原创 2024-01-22 14:20:09 · 432 阅读 · 0 评论 -
CrawlSpider【获取当前访问链接的父链接和锚文本】代码逻辑
在继承CrawlSpider父类的前提下,编写一个 fetch_referer 方法获取当前response.url的父链接和锚文本。tip: 超链接对应的文案通常被称为“锚文本”(anchor text)原创 2024-01-22 12:06:32 · 511 阅读 · 0 评论