爬虫之天涯论坛

本文介绍了如何使用Python和正则表达式实现爬虫,以获取天涯论坛中特定关键字搜索结果的所有帖子的楼主及回帖者ID。通过str.find()和re.findall()函数进行数据提取,并探讨了优化方案,包括引入多线程提高爬取效率。
摘要由CSDN通过智能技术生成

爬虫之天涯论坛

需求

获取天涯论坛上某个关键字搜索出来的所有页面里面的每个帖子的楼主ID和回帖者的ID

解决方法

Python+正则表达式

re.findall(pattern, string[, flags])
搜索string,以列表形式返回全部能匹配的子串。

str.find(str, beg=0, end=len(string))
如果包含子字符串返回开始的索引值,否则返回-1

import requests
import re
import time

# create time: 20170721
# language: python3.4



# 打开保存到本地文件
with open('.\data\data20170803.txt','w') as file:

    # 爬取的页码范围
    for page in range(75):

        # 拼凑出某一页的URL
        url = 'http://search.tianya.cn/bbs?q=粮食&pn=' + str(page + 1)

        # 获取某一面的内容
        content = requests.get(url).content.decode('utf-8')

        # 定位到需要的一块区域
        start = content.find(r'<div class="searchListOne">')
        end = content.find(
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值