简易爬虫:爬取豆瓣电影top250

本文介绍了一个简单的爬虫项目,旨在抓取并存储豆瓣电影Top250的详细信息。代码分为爬虫部分和数据库导入部分。爬虫部分收集数据,数据库导入部分将数据存入数据库。提醒注意爬虫代码不应过早处理内容细节,以免因页面差异导致问题,以及数据库导入时要留意编码问题。
摘要由CSDN通过智能技术生成

爬虫目的说明:

此爬虫简单到不能再简单了,主要内容就是爬取豆瓣top250电影页面的内容,然后将该内容导入了数据库。下面先上结果图:

mysql_spider

爬虫部分代码:

def getlist(listurl, result):
    time.sleep(2)
    headers = {
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'}
    res = requests.get(listurl, headers=headers)
    soup = BeautifulSoup(res.text, 'html.parser')
    movielist = soup.select('.grid_view li')
    for m in movielist:
        rank = m.select('em')[0].text
        if len(m.select('.title')) > 1:
            english_name =
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值