要下载一个网站的资源到本地,大部分都是exe格式。实现步骤
1、遍历网站的html
2、解析html样式,找到需要下载的资源(lxml.etree fromstring)
3、下载对应的资源(urllib.urlretrieve)
4、优化(多线程下载)
具体实现还没做,具体每个步骤的demo如下
part2
from lxml import html
import lxml
import requests
s=requests.session()
page=s.get("http://tongtool.com/").content #<type 'str'>
print page
tree=lxml.html.fromstring(page) #<class 'lxml.html.HtmlElement'>
aa=tree.xpath("//a[@href='trainning.html']/text()")
print aa[0]
bb=tree.xpath("//p[@class='w-text']")
for i in bb:
print i.get('class') #get获取属性对应的属性值
part3
import urllib
urllib.urlretrieve("http://sw.bos.baidu.com/sw-search-sp/software/efd34a93c2941/epp_5.0.601.0.exe",r'd:\tmp\aa.exe')
下载后存储对应的位置
part4
pass