本文使用简单的面向过程的编程思想,更容易理解。
说明:
本文使用了简单的模块:requests和re模块,当然也可以使用urlib模块。
开发环境是:Python3.5
开发工具:VsCode
代码如下:
import requests
import re
#循环制造网页
for page in range(1,2): #这里默认爬取了一页,爬取多页修改此处即可
url='http://www.ygdy8.net/html/gndy/oumei/list_7_'+str(page)+'.html'
html=requests.get(url) #请求网页
html.encoding='gb2312' #修改编码格式,根据网页上的要求修改
dyData=re.findall('<a href="(.*?)" class=',html.text) #使用re表达式获取网页代码
for m in dyData:
xqUrl='http://www.ygdy8.net'+m
#获取网页源代码
html2=requests.get(xqUrl)
html2.encoding='gb2312'
try:
dyLink=re.findall('<a href="(.*?)">.*?</a></td>',html2.text)[0]
print(dyLink)
except:
print('没有匹配到信息')
with open('X:\\Users\\zhaomeng\\Desktop\\1234\\111.txt','a+')as ff: #写入本地文件夹
ff.write(dyLink+'\n')
vscode结果如下图所示:
本地文件如图所示: