自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 东方财富网-美国联邦利率爬虫

添加图片注释,不超过 140 字(可选)

2025-05-30 10:10:16 439

原创 东方财富网-美国失业率数据爬虫

摘要:本文展示了一个Python数据爬取脚本,用于获取美国失业率数据。通过requests库调用Eastmoney数据中心的API接口,循环抓取11页数据。脚本处理了JSON格式的响应数据,使用pandas进行数据清洗和保存为CSV文件。代码包含错误处理逻辑,最终输出包含国家、指标ID、报告日期、数值等关键字段。该脚本可扩展用于获取其他经济指标数据。

2025-05-30 10:07:59 165

原创 同花顺财经新闻-爬虫

这篇文章摘要介绍了使用Python爬取新闻数据并保存为CSV文件的代码流程。通过requests库获取新闻API数据,用pandas处理数据,最终将新闻标题、摘要和URL信息存储到CSV文件中。代码展示了数据请求、JSON解析、字典处理和数据存储的全过程,是一个完整的网络数据采集案例。

2025-05-30 10:07:02 103

原创 联合早报-新闻爬虫

摘要:本文展示了一个使用Python多线程技术爬取网页内容的程序。通过requests库获取网页,BeautifulSoup解析内容,ThreadPoolExecutor实现并发处理。程序主要功能包括:1)设置请求头参数;2)时间戳转换;3)CSV文件存储;4)提取网页正文和meta关键词;5)多线程处理多个页面。最终生成包含标题、时间、类型、关键词、摘要等信息的CSV文件,以关键字和时间命名。程序针对特定网站设计,具有错误处理机制,可配置最大爬取页数。

2025-05-30 10:06:11 632

原创 携程旅行-游记爬虫

该Python脚本用于爬取携程旅游网的小浦旅游攻略文章,主要功能包括:1)设置请求头模拟浏览器访问;2)构造分页URL抓取多页内容;3)解析网页提取文章标题、链接、日期、浏览量等数据;4)将抓取数据保存为CSV文件。程序通过BeautifulSoup解析HTML,设置了10页最大爬取限制,并包含日期判断逻辑(遇到2022年文章即停止)。最终爬取结果包含7个字段,保存为trip_articles.csv文件。

2025-05-30 10:05:03 454

原创 懂车帝-车友圈评论爬虫

摘要:该Python代码实现了一个网页爬虫,用于从懂车帝社区抓取用户帖子信息。通过requests库获取网页内容,BeautifulSoup解析HTML,提取每张帖子卡片中的用户名、个人主页链接、内容文本、发布时间、评论数和点赞数。使用循环抓取多个页面(默认10页),将结构化数据存入列表并推送到Scrapy爬虫框架。代码包含异常处理,打印提取信息并用分隔线区分不同帖子。最终数据可用于社区内容分析或构建数据集。

2025-05-30 10:04:28 517

原创 东方财富网-爬虫

【代码】东方财富网-爬虫。

2025-05-30 10:03:44 659

原创 China daily-中国日报-爬虫

China Daily新闻爬虫工具摘要:该Python脚本通过多线程并发抓取China Daily英文版新闻(World频道)数据,支持关键词过滤(标题/内容必须/可选/排除词)、结果排序(时间/相关性)和去重设置。程序从30,000-95,000页中随机抽取300页,提取包括标题、正文、作者、关键词等12项字段,以CSV格式存储。采用requests库发起请求,ThreadPoolExecutor实现并发控制,tqdm显示进度条,并设置3秒延迟避免反爬。输出文件包含完整元数据,适用于大规模新闻数据分析场景

2025-05-30 10:03:09 557

原创 CGTN-新闻爬虫代码分享

【代码】CGTN-新闻爬虫代码分享。

2025-05-30 10:01:45 643

原创 人民日报-新闻文本爬虫代码分享

【代码】人民日报-新闻文本爬虫代码分享。

2025-05-30 10:01:01 387

原创 和鲸社区-数据集信息爬虫代码分享

摘要:本文介绍了一个Python脚本,用于从嘿鲸(Heywhale)平台获取数据集信息并保存为CSV文件。脚本通过API分页获取热门数据集元数据,包括标题、下载量、描述等,再通过数据集ID获取详细内容信息。获取的数据经过清洗处理后,最终保存为包含"Title"、"DownloadCount"、"Description"、"Content"和"URL"字段的CSV文件。脚本实现了自动化数据采集功能,使用requ

2025-05-30 10:00:08 87

情感分析-预制菜.zip

情感分析-预制菜.zip

2024-07-09

ins 客户评价 报告英文中文.zip

ins 客户评价 报告英文中文.zip

2024-07-09

新能源汽车销售数据.zip

新能源汽车销售数据.zip

2024-07-09

交通旅行-全国热门旅游景点数据分析与可视化-约300行(pandas数据处理、pyecharts可视化、jieba分词).zip

交通旅行-全国热门旅游景点数据分析与可视化-约300行(pandas数据处理、pyecharts可视化、jieba分词).zip

2024-07-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除