根据文件内存使用Python二次爬取因网络波动未爬取到的WSJ文章

因在数据爬取过程中存在网络波动的问题,导致部分网站文本需要重新爬取。这里的思路是根据文件内存进行判定,即若文件内存过小,则执行重新爬取程序。

为了避免潜在的法律和版权风险,此贴仅供交流学习使用。

先呈现一下WSJ全文的文件夹,以便更好地把握数据存储结构。

导入包

import os
import threading
from threading import Thread
import requests
from requests.exceptions import TooManyRedirects
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by import By
import time

遍历文件夹,获取文件名和所有文件的内存

namelist = [] #生成一个文件名的列表
for i in range(1998,2023): #这里我需要爬取的是1998-2022年的数据
    namelist.append(str(i))
# 思路是筛选出文件大小小于等于200个字节的文件,重新生成链接,然后爬取

class get_filename():
    
    def __init__(self,name): #读取name路径下所有的文件名
        self.path = os.listdir(r'/Users/xxx/Desktop/WSJ-RE/raw_data/'+str(name)) #这里是之前爬取所有文章文件的路径
        self.name = name 
    
    def main(self): #遍历文件夹
        lis = []
        for i in self.path:
            file_path = '/Users/xxx/Desktop/WSJ-RE/raw_data/'+str(self.name)+
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值