爬虫之天涯论坛
需求
获取天涯论坛上某个关键字搜索出来的所有页面里面的每个帖子的楼主ID和回帖者的ID
解决方法
Python+正则表达式
re.findall(pattern, string[, flags])
搜索string,以列表形式返回全部能匹配的子串。
str.find(str, beg=0, end=len(string))
如果包含子字符串返回开始的索引值,否则返回-1
import requests
import re
import time
# create time: 20170721
# language: python3.4
# 打开保存到本地文件
with open('.\data\data20170803.txt','w') as file:
# 爬取的页码范围
for page in range(75):
# 拼凑出某一页的URL
url = 'http://search.tianya.cn/bbs?q=粮食&pn=' + str(page + 1)
# 获取某一面的内容
content = requests.get(url).content.decode('utf-8')
# 定位到需要的一块区域
start = content.find(r'<div class="searchListOne">')
end = content.find(