直接代码:
# -*- coding:utf-8 -*-
import datetime
import re
def creat_xml(filename, url_list): # 生成sitemap所需要的xml方法
header = '<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">\n'
file = open(filename, 'a', encoding='utf-8')
file.writelines(header)
file.close()
for url in url_list:
times = datetime.datetime.now().strftime("%Y-%m-%dT%H:%M:%S+00:00")
urls = re.sub(r"&", "&", url) # 注意这里,在URL中如果含有&将会出错,所以需要进行转义
# 这个是生成的主体,可根据需求进行修改
ment = " <url>\n <loc>%s</loc>\n <lastmod>%s</lastmod>\n <changefreq>weekly</changefreq>\n <priority>0.8</priority>\n </url>\n" % (urls, times)
file = open(filename, 'a', encoding='utf-8')
file.writelines(ment)
file.close()
last = "</urlset>"
file = open(filename, 'a', encoding='utf-8')
file.writelines(last)
file.close()
if __name__ == '__main__':
url_list = ['https://search.google.com', 'https://www.google.com', 'https://translate.google.cn']
creat_xml("D:\\sitemap.xml", url_list)
这东西没啥难度关键在于如何获取网站的所有链接。
大神知道的给个评论谢谢~~!~
该代码段展示了如何使用Python创建一个XMLSitemap,包括设置URL、处理URL中的特殊字符、指定更新频率和优先级。主要依赖的库有datetime和re,用于处理时间和正则表达式。文章强调了获取网站所有链接是实现Sitemap的关键。

425

被折叠的 条评论
为什么被折叠?



