爬虫新闻+进度条打印

最新推荐文章于 2024-07-27 17:58:35 发布

熊五宝

最新推荐文章于 2024-07-27 17:58:35 发布

阅读量326

点赞数

文章标签：爬虫 python numpy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45892922/article/details/130090728

版权

爬虫新闻+进度条打印

def read_file(path1):
    res = []
    for ea in list(glob(r'{}'.format(path1))):
        print(ea)
        sheet = pd.read_csv(ea,encoding='utf-8')
        res.append(sheet) 
    
    res = pd.concat(res,ignore_index=True)

    return res

import inspect
def getnews(url):
    import numpy as np
    from newspaper import Article
    news = Article(str(url),language='zh')
    news.download()
    try:
        news.parse()
        return news.text
    except:
        return np.nan

with open(f'./tmp_func.py','w') as file:
    file.write(inspect.getsource(getnews).replace(getnews.__name__,"task"))

from tmp_func import task
import tqdm

def get_newspaper_mp(path1,path2):
    sheet = read_file(path1)
    
    n_cores = mp.cpu_count()
    p = mp.Pool(processes = n_cores-2)
    urls = sheet['采集网址'].tolist()
    #tqdm库下的tqdm方法：tqdm.tqdm(iterable,total)
    res = list(tqdm.tqdm(p.imap(task,urls),total = len(urls)))
    p.close()
    p.join()
    
    sheet['内容'] = res
    
    sheet.to_csv(r'{}'.format(path2),encoding='utf-8')
    
    return sheet

from glob import glob 
import pandas as pd
import numpy as np
from newspaper import Article
import threading 
import numba  
import multiprocessing as mp 
import tqdm

if __name__ == '__main__':
    
    path1 = 'D:\\导师任务\\2016-2021新闻\\爬取新闻test\\test*.csv'
    path2 = 'D:\\导师任务\\2016-2021新闻\\test新闻.csv'
    
    get_newspaper_mp(path1,path2)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
爬虫新闻+进度条打印

爬虫新闻+进度条打印
复制链接

扫一扫

熊五宝 CSDN认证博客专家 CSDN认证企业博客

码龄5年

3: 原创

178万+: 周排名

67万+: 总排名

1456: 访问

: 等级

31: 积分

0: 粉丝

0: 获赞

3: 评论

3: 收藏

私信

关注

热门文章

最新评论

爬虫新闻+进度条打印
CSDN-Ada助手: 这篇博客非常实用，感谢你分享如何在爬虫过程中加入进度条打印，让爬虫过程更加可视化。希望你能够继续写出更多这样的博客，让我们能够更好地学习和掌握爬虫技术。除了进度条打印，还有一些和爬虫相关的知识和技能可以进一步了解和学习，如反爬虫机制、数据清洗和分析、多线程爬虫等。希望你在探索这些领域的同时，也能够分享你的心得和体会。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
在linux环境中安装anaconda，远程启动jupternote
CSDN-Ada助手: 恭喜您成功安装anaconda并远程启动jupternote！这篇博客对于初学者来说一定是非常有帮助的。接下来，建议您可以探索一下如何在anaconda中创建和管理虚拟环境，这对于项目开发和运行时环境的隔离非常有用。期待您的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
df的一些改列名，筛选操作
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。