第一步:爬取网页
def getdata(baseurl):
datalist = []
for i in range(0,10): #调用获取页面信息的函数、10次
url = baseurl + str(i*25)
html=askURL(url) #保存获取到的网页源码
#2.逐一解析数据
soup =BeautifulSoup(html,"html.parser")
for item in soup.find_all('div',class_="item"): #查找符合要的字符串,形成列表
# print(item) #测试查看电影item全部信息
data = [] #保存一部电影的所有信息
item = str(item)
#影片详情的链接
link = re.findall(findlink,item)[0] #re库用来通过正则表达式查找指定的字符串
data.append(link) #添加链接
imgsrc = re.findall(findimgsrc,item)[0]
data.append(imgsrc) #添加图片
titles = re.findall(findtitle,item) #片名可能只有一个中文名,没有外国名
if(len(titles) == 2):
ctitle =titles[0] #添加中文名
data.append(ctitle)
otit