爬虫爬取多个不相同网页

最新推荐文章于 2021-04-28 22:00:16 发布

weixin_43851282

最新推荐文章于 2021-04-28 22:00:16 发布

阅读量1.9k

点赞数 1

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/weixin_43851282/article/details/105765161

版权

这是一个Python爬虫项目，目标是爬取5个时尚网站的文章信息，包括标题、正文、图片链接和时间。代码示例展示了如何使用requests和BeautifulSoup库解析GBK编码的页面，提取指定类别的文本和图片数据。

摘要由CSDN通过智能技术生成

任务四

‘’’
本任务要求大家完成一个简单的爬虫项目，包括网页爬取、信息提取以及数据保存
在完成本次任务时，建议大家认真思考，结合自己的逻辑，完成任务。
注意：本任务的得分将按照任务提交时间的先后顺序与任务正确率结合来计算，
由于每位同学的题目都不相同，建议不要抄袭，一旦发现抄袭情况，本次任务判为0分’’’
from typing import Any, Tuple

‘’’
第一题：请使用爬虫技术，爬取以下5个url地址的网页信息，并进行关键信息提取。
从爬取到的页面源码中提取下列4种信息：
1.文章标题
2.正文内容（注意，只提取文章的文本内容，不得提取页面中其他无关的文本内容）
3.图片链接（如果有）
4.时间、日期（如果有）’’’
#你分配到的url为：url = [‘http://fashion.cosmopolitan.com.cn/2019/1020/287733.shtml’,‘http://dress.pclady.com.cn/style/liuxing/1003/520703.html’,‘http://www.smartshe.com/trends/20191009/56414.html’,‘https://dress.yxlady.com/202004/1560779.shtml’,‘http://www.yoka.com/fashion/roadshow/2019/0513/52923401100538.shtml’]
url1 =‘http://fashion.cosmopolitan.com.cn/2019/1020/287733.shtml’;url2 = ‘http://dress.

最低0.47元/天解锁文章

weixin_43851282

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
爬虫爬取多个不相同网页

任务四‘’’本任务要求大家完成一个简单的爬虫项目，包括网页爬取、信息提取以及数据保存在完成本次任务时，建议大家认真思考，结合自己的逻辑，完成任务。注意：本任务的得分将按照任务提交时间的先后顺序与任务正确率结合来计算，由于每位同学的题目都不相同，建议不要抄袭，一旦发现抄袭情况，本次任务判为0分’’’from typing import Any, Tuple‘’’第一题：请使用爬虫技术...
复制链接

扫一扫