天涯论坛——python网络爬虫下载论坛关键字帖文（一）

金鳞本鲤

于 2021-01-13 08:20:30 发布

阅读量790

点赞数 1

本文链接：https://blog.csdn.net/weixin_43906500/article/details/112552800

版权

前言

本文介绍了一个天涯网站关键词搜索的爬虫实现

内容

代码

# 账号列表
# 对应关系二维列表

from pyquery import PyQuery as pq
import requests
from urllib.parse import quote
from time import sleep
import json

page = 75
key_word = '新冠疫情'


def prase_all_page(urls):
    """
    解析所有搜索页，获取帖子url，过滤无评论帖子
    :param urls:
    :return: content_urls
    """

    content_urls = []
    for url in urls:
        sleep(1)
        print('正在抓取：', url)
        doc = pq(requests.get(url=url, timeout=30).text)
        # print(doc)
        doc('.searchListOne li:last-child').remove()  # 删除最后一个无用li节点
        lis = doc('.searchListOne li').items()  # 获取content节点生成器
        for li in lis:
            reverse = li('.source span:la

最低0.47元/天解锁文章

金鳞本鲤

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
天涯论坛——python网络爬虫下载论坛关键字帖文（一）

前言本文介绍了一个天涯网站关键词搜索的爬虫实现相关爬取内容如下所示# 账号列表# 对应关系二维列表from pyquery import PyQuery as pqimport requestsfrom urllib.parse import quotefrom time import sleepimport jsonpage = 75key_word = '新冠疫情'def prase_all_page(urls): """ 解析所有..
复制链接

扫一扫

专栏目录