爬取猫眼电影TOP100榜

由于猫眼TOP100榜网页是静态网页,用requests库就可以获取到完整的网页源代码,然后用BeautifulSoup4库进行解析。

首先分析网页的url:

通过分析便可以得到网址为:

# i的值为0,10,20,... 对应的分别是第1页,第2页,第3页,...
url = "http://maoyan.com/board/4?offset=" + str(i)

使用一个迭代便可以构造全部网页的url:

for i in range(10):
   i = i * 10
   url = "http://maoyan.com/board/4?offset=" + str(i)

然后用requests库去获取网页源代码,再用BeautifulSoup4库进行解析,定义解析函数html_page_parser(html):

def html_page_parser(html):
    soup = BeautifulSoup(html, 'html5lib')
    for dd_tag in soup.find_all('dd'):
        items = []   # 创建一个列表来存储数据
        for p_tag in dd_tag.find_all('p'):
            items.append(p_tag.string)
            # 开始写入到本地文件
        with open("/home/zhiying/文档/maoyan_top100_films_results1.txt", 'a', encoding='utf-8') as f:
            f.write(dd_tag.i.string + '  ' + items[0].strip() + '  ' + items[1].strip() + '  ' + items[2].strip() + \
                    '    ' + 'http://maoyan.com' + dd_tag.p.a['href'] + '\n')

写入模式用'a' 不用'wt',是因为用'wt'时当写入下一页时会覆盖前一页的内容。


点击查看源代码

至此,获取猫眼TOP100榜的爬虫就完成了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值