多线程爬取《武动乾坤》

import requests
from lxml import etree
import os
from concurrent.futures import ThreadPoolExecutor

# 爬取页面
url = "http://www.xfuedu.org/bxwx/9613/"
os.mkdir("武动乾坤")
resp = requests.get(url)
html = etree.HTML(resp.text)
lis = html.xpath("/html/body/div[3]/div[2]/div/div[2]/ul/li")

# 定位文本内容并写入
def Load_txt(li):
	url = "http://www.xfuedu.org/bxwx/9613/" + li.xpath("./a/@href")[0]
	name = li.xpath("./a/text()")
	cont1 = etree.HTML(requests.get(url).text).xpath('//*[@id="content"]/text()')
	cont1 = "\n".join(map(str, cont1))
	cont2 = etree.HTML(requests.get(url[:-5]+"_2.html").text).xpath('//*[@id="content"]/text()')
	cont2 = "\n".join(map(str, cont2))
	cont = cont1 + cont2
	with open('武动乾坤/' + name[0] + '.txt', 'w') as f:
		f.write(cont)

if __name__ == '__main__':
	"""创建多线程"""
	with ThreadPoolExecutor(50) as t:
		for li in lis:
			t.submit(Load_txt, li)
	print("OK")
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值