前言
本文介绍了一个天涯网站关键词搜索的爬虫实现
内容
相关爬取内容如下所示
代码
# 账号列表
# 对应关系二维列表
from pyquery import PyQuery as pq
import requests
from urllib.parse import quote
from time import sleep
import json
page = 75
key_word = '新冠疫情'
def prase_all_page(urls):
"""
解析所有搜索页,获取帖子url,过滤无评论帖子
:param urls:
:return: content_urls
"""
content_urls = []
for url in urls:
sleep(1)
print('正在抓取:', url)
doc = pq(requests.get(url=url, timeout=30).text)
# print(doc)
doc('.searchListOne li:last-child').remove() # 删除最后一个无用li节点
lis = doc('.searchListOne li').items() # 获取content节点生成器
for li in lis:
reverse = li('.source span:la