教你如何用python来爬取电影天堂上面的电影

最新推荐文章于 2024-06-28 10:31:48 发布

风吹头蛋凉飕飕

最新推荐文章于 2024-06-28 10:31:48 发布

阅读量1.6k

点赞数

文章标签：自然语言处理深度学习数据挖掘机器学习

本文链接：https://blog.csdn.net/weixin_50277536/article/details/112027220

版权

该博客介绍了一种使用Python进行网页爬取的方法，专注于从电影天堂网站抓取电影信息。通过导入requests和BeautifulSoup模块，设置User-Agent避免反爬，然后解码gb2312编码的网页内容。抓取到的数据存储为csv文件，包含电影名称和链接。

摘要由CSDN通过智能技术生成

在这里插入图片描述

1.首先导入需要的模块

import requests
from bs4 import BeautifulSoup
import csv
2.获取网页，并解析结果

def html_parser(url_start):
#获取html
try:
headers={‘User-Agent’:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36’} #模拟浏览器登入
r=requests.get(url_start,headers=headers,timeout=10) #获取网页
except:
pass
#print(r.status_code)
else:
html = r.content.decode(‘gb2312’,‘ignore’) #解码gb2312，忽略其中有异常的编码，仅显示有效的编码

    #print(len(html))          

#解析网页
soup = BeautifulSoup(html,'lxml')                                
for li in soup.select('.co_area2 li'):  #选择所有class=co_area2 下的所有的 li 节点
    for a in li.select('a'):            #选择 li 节点下的 a 节点 
        link=url_start+a

最低0.47元/天解锁文章

风吹头蛋凉飕飕

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
教你如何用python来爬取电影天堂上面的电影

1.首先导入需要的模块import requestsfrom bs4 import BeautifulSoupimport csv2.获取网页，并解析结果def html_parser(url_start):#获取htmltry:headers={‘User-Agent’:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36’.
复制链接

扫一扫