Python贴吧小爬虫

开始学爬虫,感觉还是百度贴吧比较友好

不用登陆,cookie,header

用了一点正则表达式

# -*- coding: utf-8 -*-
"""
Created on Sun Apr 10 14:00:32 2016

@author: Albert
"""

import urllib2
import re
i=0

begin=int(raw_input(u'输入起始页'))
end=int(raw_input(u'输入结束页'))
f=open(r'd:\2\baidu.txt','a')
for i in xrange(begin,end+1):
    f.write("第%d页\n"%i)
    i=i+1
    url=r'http://tieba.baidu.com/f?kw=吉林大学&ie=utf-8&pn='+'%d'%(50*(i-1))
    html=urllib2.urlopen(url)
    page=html.read()
    patten=re.findall('<div.*?class="threadlist_abs threadlist_abs_onlyline">(.*?)</div>',page,re.S)
    for line in patten:
        f.write(line+'\n')
f.close()

爬出来的是帖子标题

对于正则,先观察源代码,再去匹配

<div class="threadlist_abs threadlist_abs_onlyline">四月到了 南湖的樱花快开了 估计下周就全开了 欢迎大家来观看~ 顺便大家也说说别的校区都有啥好看的花</div>

这是源代码

<div.*?class="threadlist_abs threadlist_abs_onlyline">(.*?)</div>

这是表达式

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值