- 博客(11)
- 收藏
- 关注
原创 东方财富网-美国失业率数据爬虫
摘要:本文展示了一个Python数据爬取脚本,用于获取美国失业率数据。通过requests库调用Eastmoney数据中心的API接口,循环抓取11页数据。脚本处理了JSON格式的响应数据,使用pandas进行数据清洗和保存为CSV文件。代码包含错误处理逻辑,最终输出包含国家、指标ID、报告日期、数值等关键字段。该脚本可扩展用于获取其他经济指标数据。
2025-05-30 10:07:59
165
原创 同花顺财经新闻-爬虫
这篇文章摘要介绍了使用Python爬取新闻数据并保存为CSV文件的代码流程。通过requests库获取新闻API数据,用pandas处理数据,最终将新闻标题、摘要和URL信息存储到CSV文件中。代码展示了数据请求、JSON解析、字典处理和数据存储的全过程,是一个完整的网络数据采集案例。
2025-05-30 10:07:02
103
原创 联合早报-新闻爬虫
摘要:本文展示了一个使用Python多线程技术爬取网页内容的程序。通过requests库获取网页,BeautifulSoup解析内容,ThreadPoolExecutor实现并发处理。程序主要功能包括:1)设置请求头参数;2)时间戳转换;3)CSV文件存储;4)提取网页正文和meta关键词;5)多线程处理多个页面。最终生成包含标题、时间、类型、关键词、摘要等信息的CSV文件,以关键字和时间命名。程序针对特定网站设计,具有错误处理机制,可配置最大爬取页数。
2025-05-30 10:06:11
632
原创 携程旅行-游记爬虫
该Python脚本用于爬取携程旅游网的小浦旅游攻略文章,主要功能包括:1)设置请求头模拟浏览器访问;2)构造分页URL抓取多页内容;3)解析网页提取文章标题、链接、日期、浏览量等数据;4)将抓取数据保存为CSV文件。程序通过BeautifulSoup解析HTML,设置了10页最大爬取限制,并包含日期判断逻辑(遇到2022年文章即停止)。最终爬取结果包含7个字段,保存为trip_articles.csv文件。
2025-05-30 10:05:03
454
原创 懂车帝-车友圈评论爬虫
摘要:该Python代码实现了一个网页爬虫,用于从懂车帝社区抓取用户帖子信息。通过requests库获取网页内容,BeautifulSoup解析HTML,提取每张帖子卡片中的用户名、个人主页链接、内容文本、发布时间、评论数和点赞数。使用循环抓取多个页面(默认10页),将结构化数据存入列表并推送到Scrapy爬虫框架。代码包含异常处理,打印提取信息并用分隔线区分不同帖子。最终数据可用于社区内容分析或构建数据集。
2025-05-30 10:04:28
517
原创 China daily-中国日报-爬虫
China Daily新闻爬虫工具摘要:该Python脚本通过多线程并发抓取China Daily英文版新闻(World频道)数据,支持关键词过滤(标题/内容必须/可选/排除词)、结果排序(时间/相关性)和去重设置。程序从30,000-95,000页中随机抽取300页,提取包括标题、正文、作者、关键词等12项字段,以CSV格式存储。采用requests库发起请求,ThreadPoolExecutor实现并发控制,tqdm显示进度条,并设置3秒延迟避免反爬。输出文件包含完整元数据,适用于大规模新闻数据分析场景
2025-05-30 10:03:09
557
原创 和鲸社区-数据集信息爬虫代码分享
摘要:本文介绍了一个Python脚本,用于从嘿鲸(Heywhale)平台获取数据集信息并保存为CSV文件。脚本通过API分页获取热门数据集元数据,包括标题、下载量、描述等,再通过数据集ID获取详细内容信息。获取的数据经过清洗处理后,最终保存为包含"Title"、"DownloadCount"、"Description"、"Content"和"URL"字段的CSV文件。脚本实现了自动化数据采集功能,使用requ
2025-05-30 10:00:08
87
交通旅行-全国热门旅游景点数据分析与可视化-约300行(pandas数据处理、pyecharts可视化、jieba分词).zip
2024-07-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人