超简单的豆瓣电影Top前250影片基本信息爬取

最新推荐文章于 2022-05-30 15:54:03 发布

qq1365766249

最新推荐文章于 2022-05-30 15:54:03 发布

阅读量2.7k

点赞数 1

文章标签： python 数据分析数据库

本文链接：https://blog.csdn.net/weixin_45630006/article/details/106121097

版权

本文记录了一次简单的Python爬虫实践，目标是获取豆瓣电影Top250的影片信息。在参考阿优乐扬博客的基础上，解决了HTTP Error 418、urlopen()错误及BeautifulSoup解析问题。通过调整headers、使用requests库及处理Response对象，成功实现了数据爬取并保存为xls文件。

摘要由CSDN通过智能技术生成

记录一篇简单的爬虫经历~豆瓣电影250top_百度搜索https://www.baidu.com/s?word=%E8%B1%86%E7%93%A3%E7%94%B5%E5%BD%B1250top&tn=25017023_10_pg&lm=-1&ssl_s=1&ssl_c=ssl1_1721136aead
爬虫内容参考阿优乐扬的博客-CSDN博客https://blog.csdn.net/ayouleyang/article/details/96023950?

爬取到的内容如下，是xls文件。
在这里插入图片描述

以下内容对小白白无敌友好
实现装备：Windows64，pycharm
为了爬虫安装的库有：requests, bs4, BeautifulSoup, xlwt（区分大小写）

代码参考的是上述博主的，使用中遇到了一些问题，下面我来简单说一下。
原博主代码（当然可能是我的电脑不奥利给的原因）

import re
import urllib.request
from bs4 import BeautifulSoup
import xlwt

urls = "https://movie.douban.com/top250"
html = urllib.request.urlopen(urls).read()
soup = BeautifulSoup(html, "html.parser")
all_page=[]
print(u'网站名称：', soup.title.string.replace("\n", ""))

第一个弹出错误提示：urllib.error.HTTPError: HTTP Error 418
解决方法，headers一行要改成自己计算机在网址中的User-Agent，也就是User-Agent有很种，一定要匹配自己的，查询Headers步骤如下（适合按F12查询无效者）：打开任意网址，点开右上角的菜单选项，选择开发者工具，选择network，任意点开网站的连接，在network上会显示一些文件，点开任意文件右边会显示Headers,User-Agent，复制后注意引号与空格。
在这里插入图片描述
第二个错误行：html = urllib.request.urlopen(urls).read()，在这一行里面urlopen()很不给力，一直提示错误，修改后代码 html = requests.get(urls,headers = headers )

第三个错误提示：object of type ‘Response’ has no len()，错误行为:soup = BeautifulSoup(html, “html.parser”)，错误原因：html是requests对象，无法使用Beautiful解析，需要在html后面接content。解决后代码：soup = BeautifulSoup(html.content , “html.parser”)。

然后下面是卑微的我修改后的代码，然后就可以爬出来啦~

urls = "https://movie.douban.com/top250"
headers = {
   'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36'}
html = requests.get(urls,headers = headers )
soup = BeautifulSoup(html

最低0.47元/天解锁文章

qq1365766249

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
超简单的豆瓣电影Top前250影片基本信息爬取

记录一篇简单的爬虫经历~豆瓣电影250top_百度搜索https://www.baidu.com/s?word=%E8%B1%86%E7%93%A3%E7%94%B5%E5%BD%B1250top&tn=25017023_10_pg&lm=-1&ssl_s=1&ssl_c=ssl1_1721136aead爬虫内容参考阿优乐扬的博客-CSDN博客https://blog.csdn.net/ayouleyang/article/details/96023950?爬取到的内容如
复制链接

扫一扫