python爬虫增加多线程采集数据

最新推荐文章于 2024-05-09 10:07:37 发布

q56731523

最新推荐文章于 2024-05-09 10:07:37 发布

阅读量886

点赞数 1

文章标签： python 爬虫开发语言多线程

本文链接：https://blog.csdn.net/weixin_44617651/article/details/129579981

版权

Python爬虫对于现如今大数据满天飞的时代来说真是如虎添翼，也越来越多的领域喜欢用Python来实现数据采集。像 Scrapy、Request、BeautifuSoap、urlib等框架都可以实现自动爬虫。
在这里插入图片描述

既然爬虫ip是python网络爬虫不可缺少的部分，那高质量的，ip资源丰富遍布全国的，高匿极速稳定http爬虫ip，非常适合python网络爬虫运用场景。比如在有优质爬虫ip的前提下使用python实现百度网页采集，增加多线程处理，同时对网页返回的内容进行分类统计，实现代码如下：

import asyncio
import aiohttp
import threading
from collections import Counter

定义一个全局变量，用于存储分类结果
categories = Counter()

定义一个函数，用于根据文本内容进行分类
def classify(text):
# 这里可以使用任何文本分类的方法，例如正则表达式、机器学习等
# 这里为了简单起见，只使用了简单的字符串匹配
if "Python" in text:
return "Python"
elif "Java" in text:
return "Java"
elif "C++" in text:
return "C++"
else:
return "Other"

async def fetch_page(url, proxy):
# 创建一个 aiohttp 的 ClientSession 对象，并指定爬虫ip和端口
async with aiohttp.ClientSession(proxy=proxy) as session:
# 使用 session.get 方法发送请求，并获取响应对象
async with session.get(url) as response:
# 返回响应的文本内容
return await response.text()

async def main():
urls = ["https://www.baidu.com/s?wd=" + str(i) for i in range(10)] # 生成十个百度搜索网址

# 假设有一个文件 jshk.txt，每行存储一个爬虫iphost和端口，例如 jshk.com.cn:3333
# 读取文件中的所有爬虫ip，并存储在一个列表中
with open("jshk.txt") as f:
    proxies = [line.strip() for line in f]

tasks = [] # 创建一个空列表，用于存储 task 对象

# 遍历 urls 和 proxies 列表，为每个 url 配对一个 proxy，并创建 task 对象
for url, proxy in zip(urls, proxies):
    task = asyncio.create_task(fetch_page(url, proxy))
    tasks.append(task)

results = await asyncio.gather(*tasks) # 同时运行所有 task 并获取结果

# 创建一个线程池，用于执行分类任务
pool = threading.ThreadPoolExecutor(max_workers=4)

for result in results:
    print(result[:100]) # 打印每个网页的前 100 个字符
    
    # 使用线程池提交一个分类任务，并更新全局变量 categories
    category = pool.submit(classify, result).result()
    categories[category] += 1

# 关闭线程池并等待所有任务完成
pool.shutdown(wait=True)

# 打印最终的分类结果
print(categories)
asyncio.run(main()) # 运行主协程

通过上面的代码实现数据抓取后，我们也可以简单的根据数据来分析下爬虫ip池要求。

通过获取的数据量，能够大概了解需要访问多少网页，通过目标网站的反爬策略，能大概知道需要多少爬虫ip，需要多大的爬虫ip池。假设要访问50万个页面，每个ip能访40个页面后会触发反爬机制，那大概需要1万左右不重复的爬虫ip。这只是简单的一个计算，网站不同，反爬机制不同，对IP的需求是要以实际测试的数据为准的。在我们使用爬虫ip时，如何使爬虫更有效的进行，在爬虫采集数据信息需要注意哪些地方，我们一起来分析如何更有效的采集到数据信息，提高工作效率，下一次分享给大家参考。

q56731523

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
python爬虫增加多线程采集数据

Python爬虫对于现如今大数据满天飞的时代来说真是如虎添翼，也越来越多的领域喜欢用Python来实现数据采集。像 Scrapy、Request、BeautifuSoap、urlib等框架都可以实现自动爬虫。
复制链接

扫一扫