def parse_one_page(html):
#排名、图片、名称、主演、时间、评分
pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?alt=".*?src="(.*?)".*?name"><a'
+ '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
+ '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)
items = re.findall(pattern,html)
for item in items:
yield {
'index': item[0],
'image': item[1],
'title': item[2],
'actor': item[3].strip()[3:],
'time': item[4].strip()[5:],
'score': item[5] + item[6]
}
其中items是list列表,item是tuple元组
结果返回一个 <class 'generator'> 数据
for item in parse_one_page(html):
write_to_file(item)
通过for...in来使用数据