自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 scrapyresub

sub 可以有替换功能def add(temp):str_num = temp.group()num = int(str_num)+1return str(num)ret = re.sub(r"\d+", add, “python = 997”)print(ret)ret = re.sub(r"\d+", add, “python = 99”)print(ret)

2020-07-05 15:13:30 116

原创 ajax动态url获取方法

用scrapy抓取数据,举例说明http://www.zjzwfw.gov.cn/zjzw/punish/frontpunish/showadmins.do?webId=1下一页的时候浏览器url无变化分析:f12查看下一页的时候发现多出网址然后查看规律发现page的数值每次加1然后发现其他数据可以去除一些,保留关键的一样可以打开网址举例最后一页,urlhttp://www.zjzwfw.gov.cn/zjzw/punish/frontpunish/searchall_list.do?are

2020-06-26 00:36:52 841

原创 xpath scrapy爬虫时候xpath值为空解决方案

如果代码都没问题,那就是这一个问题:xpath 的语法问题:在 chrome中能获取数据不代表在 shell 中也一定能够获取数据,所以遇到这个问题可以尝试改写语法。

2020-06-25 18:09:09 2474

原创 关于scrapy里response拼接urljoin属性的理解

因为爬虫必须要翻页,那么url链接上需要加载新的参数或者值,拼接的方法有不少,如果不是动态jajx的,而是静态的有规律的url翻页地址的话,用urljoin非常方便起始值(url) next_page_url = response.xpath('...').extract() #搞到拼接的变动的参数内容 if next_page_url is not None: yield scrapy.Request(response.urljoin(next_page_url))分

2020-06-23 22:47:40 5369

原创 关于获取网页上的超链接href属性值的方法

参考本文获取超链接href:https://www.cnblogs.com/xuchunlin/p/10935686.html

2020-06-23 22:28:13 974

原创 关于ajax动态网址url的python翻页爬取

url重新拼接,利用分析翻页后网址的XHR来取得翻页后网址的绝对url,整个过程可以参考本文:https://blog.csdn.net/Urbanears/article/details/79204684其中的参数部分可以参考本文:https://blog.csdn.net/weixin_44077128/article/details/103747616...

2020-06-23 22:26:41 483

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除