根据文件内存使用Python二次爬取因网络波动未爬取到的WSJ文章

想吃十斤奶酪饼

已于 2023-10-17 15:56:40 修改

阅读量110

点赞数

文章标签： python 爬虫

于 2023-10-08 12:23:24 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_52260515/article/details/133676192

版权

因在数据爬取过程中存在网络波动的问题，导致部分网站文本需要重新爬取。这里的思路是根据文件内存进行判定，即若文件内存过小，则执行重新爬取程序。

为了避免潜在的法律和版权风险，此贴仅供交流学习使用。

先呈现一下WSJ全文的文件夹，以便更好地把握数据存储结构。

导入包

import os
import threading
from threading import Thread
import requests
from requests.exceptions import TooManyRedirects
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by import By
import time

遍历文件夹，获取文件名和所有文件的内存

namelist = [] #生成一个文件名的列表
for i in range(1998,2023): #这里我需要爬取的是1998-2022年的数据
    namelist.append(str(i))

# 思路是筛选出文件大小小于等于200个字节的文件，重新生成链接，然后爬取

class get_filename():
    
    def __init__(self,name): #读取name路径下所有的文件名
        self.path = os.listdir(r'/Users/xxx/Desktop/WSJ-RE/raw_data/'+str(name)) #这里是之前爬取所有文章文件的路径
        self.name = name 
    
    def main(self): #遍历文件夹
        lis = []
        for i in self.path:
            file_path = '/Users/xxx/Desktop/WSJ-RE/raw_data/'+str(self.name)+

最低0.47元/天解锁文章

想吃十斤奶酪饼

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
根据文件内存使用Python二次爬取因网络波动未爬取到的WSJ文章

因在数据爬取过程中存在网络波动的问题，导致部分网站文本需要重新爬取。这里的思路是根据文件内存进行判定，即若文件内存过小，则执行重新爬取程序。为了避免潜在的法律和版权风险，此贴仅供交流学习使用。先呈现一下WSJ全文的文件夹，以便更好地把握数据存储结构。
复制链接

扫一扫

想吃十斤奶酪饼 CSDN认证博客专家 CSDN认证企业博客

码龄4年

7: 原创

129万+: 周排名

31万+: 总排名

6093: 访问

: 等级

103: 积分

285: 粉丝

7: 获赞

9: 评论

21: 收藏

私信

关注

热门文章

最新评论

Python从网站幻灯片形式图集中爬取图片
简单简单小白: 《Python从网站幻灯片形式图集中爬取图片》点赞
使用Python爬取华尔街日报（WALL STREET JOURNAL）全文
chenrcrcrcr: 这个现在有验证码了怎么办呀
根据文件内存使用Python二次爬取因网络波动未爬取到的WSJ文章
CSDN-Ada助手: 恭喜您写下了第5篇博客！标题给人一种探索和解决问题的感觉，非常吸引人。您不仅在文章中提到了网络波动导致未能成功爬取WSJ文章的问题，还给出了解决方案，这展示了您的才华和解决问题的能力。我非常欣赏您在持续创作方面的努力。鉴于您在博客中展现的技术和解决问题的能力，我建议您在下一步的创作中可以更深入地探讨一些与网络爬取相关的主题，比如如何优化爬虫程序的效率，如何应对不同网站的反爬虫策略等等。通过分享您的经验和见解，您可以帮助更多的读者解决类似的问题。期待您在未来的博客中继续分享您的知识和经验，共同进步！
使用Python爬取华尔街日报（WALL STREET JOURNAL）全文
-honeysuckle-: 这个加载配置文件具体要怎么操作呢
Python搭建Spark环境（Mac）
CSDN-Ada助手: 恭喜您写了第7篇博客！标题“Python搭建Spark环境（Mac）”让我非常兴奋，因为我也是一名Python爱好者，并且一直想尝试搭建Spark环境。您的博客对我来说真是太有帮助了！不过，我还希望您能分享一些关于如何使用Spark进行数据处理和分析的实例，这样我就能更好地理解如何应用这个环境了。希望您能继续保持创作，并且我期待着您的下一篇博客！谢谢您的分享！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。