开始学爬虫,感觉还是百度贴吧比较友好
不用登陆,cookie,header
用了一点正则表达式
# -*- coding: utf-8 -*-
"""
Created on Sun Apr 10 14:00:32 2016
@author: Albert
"""
import urllib2
import re
i=0
begin=int(raw_input(u'输入起始页'))
end=int(raw_input(u'输入结束页'))
f=open(r'd:\2\baidu.txt','a')
for i in xrange(begin,end+1):
f.write("第%d页\n"%i)
i=i+1
url=r'http://tieba.baidu.com/f?kw=吉林大学&ie=utf-8&pn='+'%d'%(50*(i-1))
html=urllib2.urlopen(url)
page=html.read()
patten=re.findall('<div.*?class="threadlist_abs threadlist_abs_onlyline">(.*?)</div>',page,re.S)
for line in patten:
f.write(line+'\n')
f.close()
爬出来的是帖子标题
对于正则,先观察源代码,再去匹配
<div class="threadlist_abs threadlist_abs_onlyline">四月到了 南湖的樱花快开了 估计下周就全开了 欢迎大家来观看~ 顺便大家也说说别的校区都有啥好看的花</div>
这是源代码
<div.*?class="threadlist_abs threadlist_abs_onlyline">(.*?)</div>
这是表达式