Andre_zeng-CSDN博客

原创 scrapyresub

sub 可以有替换功能def add(temp):str_num = temp.group()num = int(str_num)+1return str(num)ret = re.sub(r"\d+", add, “python = 997”)print(ret)ret = re.sub(r"\d+", add, “python = 99”)print(ret)

2020-07-05 15:13:30 137

用scrapy抓取数据，举例说明http://www.zjzwfw.gov.cn/zjzw/punish/frontpunish/showadmins.do?webId=1下一页的时候浏览器url无变化分析：f12查看下一页的时候发现多出网址然后查看规律发现page的数值每次加1然后发现其他数据可以去除一些，保留关键的一样可以打开网址举例最后一页，urlhttp://www.zjzwfw.gov.cn/zjzw/punish/frontpunish/searchall_list.do?are

2020-06-26 00:36:52 856

原创 xpath scrapy爬虫时候xpath值为空解决方案

如果代码都没问题，那就是这一个问题：xpath 的语法问题：在 chrome中能获取数据不代表在 shell 中也一定能够获取数据，所以遇到这个问题可以尝试改写语法。

2020-06-25 18:09:09 2511

原创关于scrapy里response拼接urljoin属性的理解

因为爬虫必须要翻页，那么url链接上需要加载新的参数或者值，拼接的方法有不少，如果不是动态jajx的，而是静态的有规律的url翻页地址的话，用urljoin非常方便起始值（url） next_page_url = response.xpath('...').extract() #搞到拼接的变动的参数内容 if next_page_url is not None: yield scrapy.Request(response.urljoin(next_page_url))分

2020-06-23 22:47:40 5503

原创关于获取网页上的超链接href属性值的方法

参考本文获取超链接href：https://www.cnblogs.com/xuchunlin/p/10935686.html

2020-06-23 22:28:13 1001

原创关于ajax动态网址url的python翻页爬取

url重新拼接，利用分析翻页后网址的XHR来取得翻页后网址的绝对url，整个过程可以参考本文：https://blog.csdn.net/Urbanears/article/details/79204684其中的参数部分可以参考本文：https://blog.csdn.net/weixin_44077128/article/details/103747616...

2020-06-23 22:26:41 495

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_47420595的博客

原创 scrapyresub

原创 ajax动态url获取方法

原创 xpath scrapy爬虫时候xpath值为空解决方案

原创关于scrapy里response拼接urljoin属性的理解

原创关于获取网页上的超链接href属性值的方法

原创关于ajax动态网址url的python翻页爬取

空空如也

空空如也

原创 scrapyresub

原创 ajax动态url获取方法

原创 xpath scrapy爬虫时候xpath值为空解决方案

原创 关于scrapy里response拼接urljoin属性的理解

原创 关于获取网页上的超链接href属性值的方法

原创 关于ajax动态网址url的python翻页爬取

空空如也

空空如也

原创关于scrapy里response拼接urljoin属性的理解

原创关于获取网页上的超链接href属性值的方法

原创关于ajax动态网址url的python翻页爬取