zhu444250169的博客

开始你的编程人生吧

Python3 网络爬虫 简易的猫眼电影排行榜爬虫
import requests
import urllib
import re

#首先获得请求一个界面,这是一个通用的代码,包括伪装浏览器,状态码验证等。

def get_one_page(url):
    headers ={
        'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'

    }
    response = requests.get(url,headers = headers)
    if response.status_code == 200:
        return response.text
    return None



#截取的一段电影信息内容

''' <dd>
                        <i class="board-index board-index-1">1</i>
    <a href="/films/1203" title="霸王别姬" class="image-link" data-act="boarditem-click" data-val="{movieId:1203}">
      <img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" />
      <img data-src="http://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c" alt="霸王别姬" class="board-img" />
    </a>
    <div class="board-item-main">
      <div class="board-item-content">
              <div class="movie-item-info">
        <p class="name"><a href="/films/1203" title="霸王别姬" data-act="boarditem-click" data-val="{movieId:1203}">霸王别姬</a></p>
        <p class="star">
                主演:张国荣,张丰毅,巩俐
        </p>
<p class="releasetime">上映时间:1993-01-01(中国香港)</p>    </div>
    <div class="movie-item-number score-num">
<p class="score"><i class="integer">9.</i><i class="fraction">6</i></p>        
    </div>

      </div>
    </div>

                </dd>'''
#获取到了全部网页之后,就可以使用正则表达式提取所需内容了

def parse_one_page(html):
    pattern = re.compile('<dd>.*?board-index.*?>(.*?)<.*?<p class="name".*?title="(.*?)".*?class="releasetime">(.*?)</p>',re.S)
    items = re.findall(pattern, html)
    for item in items:
        print(item)
#定义一个写入到文件的方法

def main(offset):
    url = 'http://maoyan.com/board/4?offset='+str(offset)
    html = get_one_page(url)
    parsehtml=parse_one_page(html)
if __name__=='__main__':
    for i in range(10):
        main(offset=i*10)

('1', '霸王别姬', '上映时间:1993-01-01(中国香港)')
('2', '肖申克的救赎', '上映时间:1994-10-14(美国)')
('3', '罗马假日', '上映时间:1953-09-02(美国)')
('4', '这个杀手不太冷', '上映时间:1994-09-14(法国)')
('5', '教父', '上映时间:1972-03-24(美国)')
('6', '泰坦尼克号', '上映时间:1998-04-03')
('7', '龙猫', '上映时间:1988-04-16(日本)')
('8', '唐伯虎点秋香', '上映时间:1993-07-01(中国香港)')
('9', '魂断蓝桥', '上映时间:1940-05-17(美国)')
('10', '千与千寻', '上映时间:2001-07-20(日本)')
('11', '乱世佳人', '上映时间:1939-12-15(美国)')
('12', '喜剧之王', '上映时间:1999-02-13(中国香港)')
('13', '天空之城', '上映时间:1992')
('14', '大闹天宫', '上映时间:1965-12-31')
('15', '辛德勒的名单', '上映时间:1993-12-15(美国)')
('16', '音乐之声', '上映时间:1965-03-02(美国)')
('17', '剪刀手爱德华', '上映时间:1990-12-06(美国)')
('18', '春光乍泄', '上映时间:1997-05-30(中国香港)')
('19', '美丽人生', '上映时间:1997-12-20(意大利)')
('20', '黑客帝国', '上映时间:2000-01-14')
('21', '海上钢琴师', '上映时间:1998-10-28(意大利)')
('22', '指环王3:王者无敌', '上映时间:2004-03-15')
('23', '加勒比海盗', '上映时间:2003-11-21')
('24', '哈利·波特与魔法石', '上映时间:2002-01-26')
('25', '射雕英雄传之东成西就', '上映时间:1993-02-05(中国香港)')
('26', '无间道', '上映时间:2003-09-05')
('27', '楚门的世界', '上映时间:1998-06-01(美国)')
('28', '指环王2:双塔奇兵', '上映时间:2003-04-25')
('29', '蝙蝠侠:黑暗骑士', '上映时间:2008-07-18(美国)')
('30', '教父2', '上映时间:1974-12-12(美国)')
('31', '活着', '上映时间:1994-05-18(法国)')
('32', '天堂电影院', '上映时间:1988-11-17(意大利)')
('33', '机器人总动员', '上映时间:2008-06-27(美国)')
('34', '拯救大兵瑞恩', '上映时间:1998-07-24(美国)')
('35', '忠犬八公的故事', '上映时间:2010-03-12(英国)')
('36', '哈尔的移动城堡', '上映时间:2004-11-20(日本)')
('37', '东邪西毒', '上映时间:1994-09-17')
('38', '盗梦空间', '上映时间:2010-09-01')
('39', '疯狂原始人', '上映时间:2013-04-20')
('40', '搏击俱乐部', '上映时间:1999-10-15(美国)')
('41', '幽灵公主', '上映时间:1997-07-12(日本)')
('42', '阿凡达', '上映时间:2010-01-04')
('43', 'V字仇杀队', '上映时间:2006-03-17(美国)')
('44', '风之谷', '上映时间:1992')
('45', '放牛班的春天', '上映时间:2004-10-16')
('46', '当幸福来敲门', '上映时间:2008-01-17')
('47', '速度与激情5', '上映时间:2011-05-12')
('48', '驯龙高手', '上映时间:2010-05-14')
('49', '十二怒汉', '上映时间:1957-04-13(美国)')
('50', '黑客帝国3:矩阵革命', '上映时间:2003-11-05')
('51', '勇敢的心', '上映时间:1995-05-24(美国)')
('52', '三傻大闹宝莱坞', '上映时间:2011-12-08')
('53', '断背山', '上映时间:2006-01-13(美国)')
('54', '神偷奶爸', '上映时间:2010-07-09(美国)')
('55', '飞屋环游记', '上映时间:2009-08-04')
('56', '闻香识女人', '上映时间:1992-12-23(美国)')
('57', '少年派的奇幻漂流', '上映时间:2012-11-22')
('58', '飞越疯人院', '上映时间:1975-11-19(美国)')
('59', '致命魔术', '上映时间:2006-10-20(美国)')
('60', '怦然心动', '上映时间:2010-08-06(美国)')
('61', '美国往事', '上映时间:1984-02-17(美国)')
('62', '鬼子来了', '上映时间:2000-05-12(法国戛纳)')
('63', '美丽心灵', '上映时间:2001-12-21(美国)')
('64', '夜访吸血鬼', '上映时间:1994-11-11(美国)')
('65', '大话西游之月光宝盒', '上映时间:2014-10-24')
('66', '蝙蝠侠:黑暗骑士崛起', '上映时间:2012-08-27')
('67', '无敌破坏王', '上映时间:2012-11-06')
('68', '钢琴家', '上映时间:2002-09-25(法国)')
('69', '本杰明·巴顿奇事', '上映时间:2008-12-25(美国)')
('70', '哈利·波特与死亡圣器(下)', '上映时间:2011-08-04')
('71', '倩女幽魂', '上映时间:2011-04-30')
('72', '新龙门客栈', '上映时间:2012-02-24')
('73', '甜蜜蜜', '上映时间:2015-02-13')
('74', '触不可及', '上映时间:2011-11-02(法国)')
('75', '熔炉', '上映时间:2011-09-22(韩国)')
('76', '初恋这件小事', '上映时间:2012-06-05')
('77', '大话西游之大圣娶亲', '上映时间:2014-10-24')
('78', '素媛', '上映时间:2013-10-02(韩国)')
('79', '小鞋子', '上映时间:1999-01-22(美国)')
('80', '萤火之森', '上映时间:2011-09-17(日本)')
('81', '窃听风暴', '上映时间:2006-03-23(德国)')
('82', '穿条纹睡衣的男孩', '上映时间:2008-09-12(英国)')
('83', '时空恋旅人', '上映时间:2013-09-04(英国)')
('84', '地球上的星星', '上映时间:2007-12-21(印度)')
('85', '7号房的礼物', '上映时间:2013-01-23(韩国)')
('86', '借东西的小人阿莉埃蒂', '上映时间:2010-07-17(日本)')
('87', '海豚湾', '上映时间:2009-07-31(美国)')
('88', '恐怖直播', '上映时间:2013-07-31(韩国)')
('89', '忠犬八公物语', '上映时间:1987-08-01(日本)')
('90', '上帝之城', '上映时间:2002-08-30(巴西)')
('91', '辩护人', '上映时间:2013-12-18(韩国)')
('92', '七武士', '上映时间:1954-04-26(日本)')
('93', '一一', '上映时间:2000-09-20(法国)')
('94', '完美的世界', '上映时间:1993-11-24(美国)')
('95', '海洋', '上映时间:2011-08-12')
('96', '黄金三镖客', '上映时间:1966-12-23(意大利)')
('97', '爱·回家', '上映时间:2002-04-05(韩国)')
('98', '我爱你', '上映时间:2011-02-17(韩国)')
('99', '迁徙的鸟', '上映时间:2001-12-12(法国)')
('100', '英雄本色', '上映时间:2017-11-17')
阅读更多
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zhu444250169/article/details/80347802
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

不良信息举报

Python3 网络爬虫 简易的猫眼电影排行榜爬虫

最多只允许输入30个字

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭