Python3.83 批量爬取电影网站下载信息----文科生的python自学之路(10)

本文介绍了使用Python3.83进行批量爬取电影网站下载信息的过程,包括环境配置、涉及的库、爬取思路、主要知识点及实际代码示例,适合文科生自学Python爬虫。
摘要由CSDN通过智能技术生成

一、批量爬取电影网站任务说明

1.环境:

	python 3.83 
	pycharm 2020.1

2.涉及库

	re		
	urllib.request

3.思路、参考来源

	学习先锋python教学视频,实操上手展示

4.主要知识点

	函数的构造
	正则方法实践

5.代码实录日期

	2020.5.8

二、代码

# -*- coding: utf-8 -*- 
# @Time : 2020/5/8 20:05 
# @Author : tian_qi
# @File : get_href_1.py
# @Ver : Python 3.83

import re
import urllib.request

"""
1.定义函数(get_movie_links()),获取列表页(最新电影)所有电影对应的网页链接
    1.1 确定列表页网页地址 https://www.ygdy8.net/html/gndy/dyzz/list_23_1.html
    1.2 打开列表页,获取二进制数据
    1.3 将二进制数据解码为网页原码(GBK)
    1.4 使用正则获取所有影片的地址
        1.4.1 遍历取出内容页的地址
        1.4.2 拼接内容页地址
        1.4.3 打开内容页地址
        1.4.4 获取数据,读取内容
        1.4.5 解码内容页数据,得到html内容页文本
        1.4.6 使用正则,获取下载地址的链接
        1.4.7 把影片信息和下载链接,保存到字典中
        1.4.8 返回字典
    
2.定义主函数 main
    2.1 调用get_movie_links(),得到字典
    2.2 遍历字典,显示下载内容
    
"""



def get_movie_links():
    """获取列表页信息"""
    # 确定列表页网页地址
    film_list_url = 'https://www.ygdy8.net/html/gndy/dyzz/list_23_1.html'
    # 打开列表页,获取二进制数据
    response_list = urllib.request.urlopen(film_list_url)
    # 读取网页数据
    response_list_data = response_list.read()
    # 将二进制数据解码为网页原码(GBK࿰
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值