- 博客(6)
- 收藏
- 关注
原创 scrapyresub
sub 可以有替换功能def add(temp):str_num = temp.group()num = int(str_num)+1return str(num)ret = re.sub(r"\d+", add, “python = 997”)print(ret)ret = re.sub(r"\d+", add, “python = 99”)print(ret)
2020-07-05 15:13:30 137
原创 ajax动态url获取方法
用scrapy抓取数据,举例说明http://www.zjzwfw.gov.cn/zjzw/punish/frontpunish/showadmins.do?webId=1下一页的时候浏览器url无变化分析:f12查看下一页的时候发现多出网址然后查看规律发现page的数值每次加1然后发现其他数据可以去除一些,保留关键的一样可以打开网址举例最后一页,urlhttp://www.zjzwfw.gov.cn/zjzw/punish/frontpunish/searchall_list.do?are
2020-06-26 00:36:52 856
原创 xpath scrapy爬虫时候xpath值为空解决方案
如果代码都没问题,那就是这一个问题:xpath 的语法问题:在 chrome中能获取数据不代表在 shell 中也一定能够获取数据,所以遇到这个问题可以尝试改写语法。
2020-06-25 18:09:09 2511
原创 关于scrapy里response拼接urljoin属性的理解
因为爬虫必须要翻页,那么url链接上需要加载新的参数或者值,拼接的方法有不少,如果不是动态jajx的,而是静态的有规律的url翻页地址的话,用urljoin非常方便起始值(url) next_page_url = response.xpath('...').extract() #搞到拼接的变动的参数内容 if next_page_url is not None: yield scrapy.Request(response.urljoin(next_page_url))分
2020-06-23 22:47:40 5503
原创 关于获取网页上的超链接href属性值的方法
参考本文获取超链接href:https://www.cnblogs.com/xuchunlin/p/10935686.html
2020-06-23 22:28:13 1001
原创 关于ajax动态网址url的python翻页爬取
url重新拼接,利用分析翻页后网址的XHR来取得翻页后网址的绝对url,整个过程可以参考本文:https://blog.csdn.net/Urbanears/article/details/79204684其中的参数部分可以参考本文:https://blog.csdn.net/weixin_44077128/article/details/103747616...
2020-06-23 22:26:41 495
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人