scrapy框架下使用SitemapSpider爬取织梦园模板网的网站地图

本文介绍了如何利用Scrapy框架中的SitemapSpider爬取织梦园模板网的网站地图,详细讲解了从创建项目、定义items、编写spiders到设置配置的整个过程,目标是抓取百度排名优化文章的相关信息,包括标题、作者、发布时间和浏览量。
摘要由CSDN通过智能技术生成

Sitemap 可方便网站管理员通知搜索引擎他们网站上有哪些可供抓取的网页。最简单的 Sitemap 形式,就是XML 文件,在其中列出网站中的网址以及关于每个网址的其他元数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度为何等),以便搜索引擎可以更加智能地抓取网站。

Google、微软都支持一个被称为xml网站地图(xml Sitemaps)的协议,而百度Sitemap是指百度支持的收录标准,在原有协议上做出了扩展。百度Sitemap分为三种格式:txt文本格式、xml格式、Sitemap索引格式。

sitemap.xml的作用是给搜索引擎看的,因为当蜘蛛很难爬行我们更深层次的内容的时候,只要有这个就能让蜘蛛按照顺序进行爬取了;而sitemap.htm是给用户看的,当我们网站过于复杂的时候,用户进来想找到自己想要的内容的时候比较复杂的时候就需要用到这个,不过就目前来看,很多站长还分不清呢,更别说用户了。

在此选择织梦园模板网进行试验,url是http://www.seomj.com/sitemap.xml,打开后看到的页面如下:

源代码如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值