教你如何用python来爬取电影天堂上面的电影

该博客介绍了一种使用Python进行网页爬取的方法,专注于从电影天堂网站抓取电影信息。通过导入requests和BeautifulSoup模块,设置User-Agent避免反爬,然后解码gb2312编码的网页内容。抓取到的数据存储为csv文件,包含电影名称和链接。
摘要由CSDN通过智能技术生成

在这里插入图片描述

1.首先导入需要的模块

import requests
from bs4 import BeautifulSoup
import csv
2.获取网页,并解析结果

def html_parser(url_start):
#获取html
try:
headers={‘User-Agent’:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36’} #模拟浏览器登入
r=requests.get(url_start,headers=headers,timeout=10) #获取网页
except:
pass
#print(r.status_code)
else:
html = r.content.decode(‘gb2312’,‘ignore’) #解码gb2312,忽略其中有异常的编码,仅显示有效的编码

    #print(len(html))          

#解析网页
soup = BeautifulSoup(html,'lxml')                                
for li in soup.select('.co_area2 li'):  #选择所有class=co_area2 下的所有的 li 节点
    for a in li.select('a'):            #选择 li 节点下的 a 节点 
        link=url_start+a
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值