这个库真的很好用,以往学过的爬虫技术,urllib、urllib2、bs4、scrapy、正则都不如它来的方便,优点之一就是不用构造hreaders,如果GITHUB说的是真的,那么这个库连反爬虫都不需要考虑了,很方便也很实用。
https://github.com/kennethreitz/requests-html GitHub源地址
from requests_html import HTMLSession import urllib.request import time session=HTMLSession() urls = ['http://www.win4000.com/zt/mao_{}.html'.format(str(i)) for i in range(1, 5)] # url='http://www.win4000.com/zt/mao_1.html' for url in urls: r=session.get(url) time.sleep(1) hrefs=r.html.find('div.tab_box>div>ul.clearfix>li>a>img') hrefs2 = r.html.find('div.tab_box>div>ul.clearfix>li>a') for href2 in hrefs2[:-5]: # print(href2.find('img')) name=href2.text print(name) for i in href2.find('img'): print(i.attrs['data-original']) #这就是图片下载地址,str类型 urllib.request.urlretrieve(i.attrs['data-original'], 'F:\AV\pachong\%s.jpg' %name)