简易爬虫：爬取豆瓣电影top250

最新推荐文章于 2024-08-07 21:44:48 发布

poplar50

最新推荐文章于 2024-08-07 21:44:48 发布

阅读量3k

点赞数 1

分类专栏： python 文章标签：数据库爬虫

本文链接：https://blog.csdn.net/yaakire/article/details/78932611

版权

本文介绍了一个简单的爬虫项目，旨在抓取并存储豆瓣电影Top250的详细信息。代码分为爬虫部分和数据库导入部分。爬虫部分收集数据，数据库导入部分将数据存入数据库。提醒注意爬虫代码不应过早处理内容细节，以免因页面差异导致问题，以及数据库导入时要留意编码问题。

摘要由CSDN通过智能技术生成

爬虫目的说明：

此爬虫简单到不能再简单了，主要内容就是爬取豆瓣top250电影页面的内容，然后将该内容导入了数据库。下面先上结果图：

mysql_spider

爬虫部分代码：

def getlist(listurl, result):
    time.sleep(2)
    headers = {
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'}
    res = requests.get(listurl, headers=headers)
    soup = BeautifulSoup(res.text, 'html.parser')
    movielist = soup.select('.grid_view li')
    for m in movielist:
        rank = m.select('em')[0].text
        if len(m.select('.title')) > 1:
            english_name =