Python3.83 批量爬取电影网站下载信息----文科生的python自学之路(10)
一、批量爬取电影网站任务说明
1.环境:
python 3.83
pycharm 2020.1
2.涉及库
re
urllib.request
3.思路、参考来源
学习先锋python教学视频,实操上手展示
4.主要知识点
函数的构造
正则方法实践
5.代码实录日期
2020.5.8
二、代码
import re
import urllib.request
"""
1.定义函数(get_movie_links()),获取列表页(最新电影)所有电影对应的网页链接
1.1 确定列表页网页地址 https://www.ygdy8.net/html/gndy/dyzz/list_23_1.html
1.2 打开列表页,获取二进制数据
1.3 将二进制数据解码为网页原码(GBK)
1.4 使用正则获取所有影片的地址
1.4.1 遍历取出内容页的地址
1.4.2 拼接内容页地址
1.4.3 打开内容页地址
1.4.4 获取数据,读取内容
1.4.5 解码内容页数据,得到html内容页文本
1.4.6 使用正则,获取下载地址的链接
1.4.7 把影片信息和下载链接,保存到字典中
1.4.8 返回字典
2.定义主函数 main
2.1 调用get_movie_links(),得到字典
2.2 遍历字典,显示下载内容
"""
def get_movie_links():
"""获取列表页信息"""
film_list_url = 'https://www.ygdy8.net/html/gndy/dyzz/list_23_1.html'
response_list = urllib.request.urlopen(film_list_url)
response_list_data = response_list.read()