Python3.83 批量爬取电影网站下载信息----文科生的python自学之路（10）

最新推荐文章于 2023-10-25 14:00:00 发布

weixin_44118714

最新推荐文章于 2023-10-25 14:00:00 发布

阅读量932

点赞数 1

文章标签： python 正则表达式

本文链接：https://blog.csdn.net/weixin_44118714/article/details/106006667

版权

本文介绍了使用Python3.83进行批量爬取电影网站下载信息的过程，包括环境配置、涉及的库、爬取思路、主要知识点及实际代码示例，适合文科生自学Python爬虫。

摘要由CSDN通过智能技术生成

Python3.83 批量爬取电影网站下载信息----文科生的python自学之路（10）

一、批量爬取电影网站任务说明

一、批量爬取电影网站任务说明

1．环境：

	python 3.83 
	pycharm 2020.1

2．涉及库

	re		
	urllib.request

3．思路、参考来源

	学习先锋python教学视频，实操上手展示

4．主要知识点

	函数的构造
	正则方法实践

5．代码实录日期

	2020.5.8

二、代码

# -*- coding: utf-8 -*- 
# @Time : 2020/5/8 20:05 
# @Author : tian_qi
# @File : get_href_1.py
# @Ver : Python 3.83

import re
import urllib.request

"""
1．定义函数（get_movie_links()），获取列表页（最新电影）所有电影对应的网页链接
    1.1 确定列表页网页地址 https://www.ygdy8.net/html/gndy/dyzz/list_23_1.html
    1.2 打开列表页，获取二进制数据
    1.3 将二进制数据解码为网页原码（GBK）
    1.4 使用正则获取所有影片的地址
        1.4.1 遍历取出内容页的地址
        1.4.2 拼接内容页地址
        1.4.3 打开内容页地址
        1.4.4 获取数据，读取内容
        1.4.5 解码内容页数据，得到html内容页文本
        1.4.6 使用正则，获取下载地址的链接
        1.4.7 把影片信息和下载链接，保存到字典中
        1.4.8 返回字典
    
2．定义主函数 main
    2.1 调用get_movie_links()，得到字典
    2.2 遍历字典，显示下载内容
    
"""



def get_movie_links():
    """获取列表页信息"""
    # 确定列表页网页地址
    film_list_url = 'https://www.ygdy8.net/html/gndy/dyzz/list_23_1.html'
    # 打开列表页，获取二进制数据
    response_list = urllib.request.urlopen(film_list_url)
    # 读取网页数据
    response_list_data = response_list.read()
    # 将二进制数据解码为网页原码（GBK࿰

最低0.47元/天解锁文章

weixin_44118714

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫