robots.txt 文件 - 网站对爬虫限制的声明(http://www.robotstxt.org/)
sitemap文件 - 网站地图(https://www.sitemaps.org/protocol.html)
503 service unavailable 服务器过载错误(临时性) - 可以尝试重新下载
404 Not Found 网页不存在, 即使重复下载也不行
Http返回值完整的列表(https://tools.ietf.org/html/rfc7231#section-6), 从中可以看出4xxx错误发生在请求存在问题时,5xxx错误发生在服务器端存在问题时