Python贴吧小爬虫

最新推荐文章于 2020-11-20 19:40:08 发布

wytbno

最新推荐文章于 2020-11-20 19:40:08 发布

阅读量697

点赞数

分类专栏： Python 文章标签：爬虫正则表达式 cookie

本文链接：https://blog.csdn.net/wytbno/article/details/51112852

版权

Python 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

开始学爬虫，感觉还是百度贴吧比较友好

不用登陆，cookie，header

用了一点正则表达式

# -*- coding: utf-8 -*-
"""
Created on Sun Apr 10 14:00:32 2016

@author: Albert
"""

import urllib2
import re
i=0

begin=int(raw_input(u'输入起始页'))
end=int(raw_input(u'输入结束页'))
f=open(r'd:\2\baidu.txt','a')
for i in xrange(begin,end+1):
    f.write("第%d页\n"%i)
    i=i+1
    url=r'http://tieba.baidu.com/f?kw=吉林大学&ie=utf-8&pn='+'%d'%(50*(i-1))
    html=urllib2.urlopen(url)
    page=html.read()
    patten=re.findall('<div.*?class="threadlist_abs threadlist_abs_onlyline">(.*?)</div>',page,re.S)
    for line in patten:
        f.write(line+'\n')
f.close()

爬出来的是帖子标题

对于正则，先观察源代码，再去匹配

<div class="threadlist_abs threadlist_abs_onlyline">四月到了南湖的樱花快开了估计下周就全开了欢迎大家来观看~ 顺便大家也说说别的校区都有啥好看的花</div>

这是源代码

<div.*?class="threadlist_abs threadlist_abs_onlyline">(.*?)</div>

这是表达式