批量提取 sitemap.xml 中的链接生成 sitemap.txt (Python脚本)

本文介绍了一个Python脚本,用于从多个Google Sitemap XML文件中提取链接,生成Sitemap.txt文件,便于百度收录。脚本包括从服务器下载XML文件,提取链接,创建TXT文件,上传到服务器,并生成robot.txt。脚本利用线程池提高处理速度,适用于Linux环境,也适用于Windows。
摘要由CSDN通过智能技术生成


题目读起来很绕,是这样的,我的小站用了dedecms的一个插件,它能生成若干个 google sitemap 的 .xml 文件,然而却没有对应的利于百度收录的插件可使用。在网上查了一下,说是要提取这些 .xml 文件中的链接出来,生成一个对应的 sitemap.txt 才行,然后以如下格式放到 robot.txt 中

Sitemap: http://your site/sitemap.xml. http://your site/sitemap.txt

可是一个一个手动提取其中的链接太麻烦了,我用了20分钟写了一个 python 脚本,方便这个操作,当然程序还很简陋,但也足够我用了。

现在的功能是:从网站下载 sitemap.xml 文件,提取其中的链接生成 sitemap.txt 然后再传回网站,最后生成一个 robot.txt 作为参考。因为文件较多,我用了一个线程池,加快处理速度。

这个小脚本是在 linux 下写的,测试运行良好,我没有在 win32 平台下测试,但也应该能够工作。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值