python怎么爬简历手把手教你利用Python爬取简历模板

import requests
from lxml import etree
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36 Edg/117.0.2045.9'
}
p = input("请数入要爬取的页数 页数要>=2\n")
url='https://sc.chinaz.com/tag_jianli/hulianwang_'+p+'.html'
text = requests.get(url=url, headers=headers).text
g = etree.HTML(text).xpath('//div[@class="sc_warp  mt20"]/div/div/div')
for s in g:
     # b=s.xpath('./a/img/@src')[0]
    # c=s.xpath('./a/img/@alt')[0]    [0]是去掉列表中的[]取里面的数据源。
    img_alt_ = s.xpath('./a/img/@alt')[0].encode('iso-8859-1').decode('utf-8') + '.zip'#防爬虫乱码的代码。
    d=s.xpath('./a/@href')[0]   #返回的是一个列表就可以得到。
    name='https://sc.chinaz.com/'+d
    Name='简历/'+img_alt_   #持久化存储的路径。
    y = requests.get(url=name, headers=headers).text
    z = etree.HTML(y).xpath('//div[@class="down_wrap"]/div[2]/ul/li')
    for t in z:
     u = t.xpath('./a/@href')[0]
    b= requests.get(url=u, headers=headers).content
    with open(Name, 'wb')as fp:
         fp.write(b)
         print(Name + "下载完成")





爬取的数据格式为zip格式

以上是爬取的代码。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值