Python从网站幻灯片形式图集中爬取图片

想吃十斤奶酪饼

于 2023-10-17 16:00:11 发布

阅读量672

点赞数

文章标签： python 爬虫 selenium

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_52260515/article/details/133886275

版权

今天浏览网站时遇到了slideshow格式的图片集，如下图，我需要爬取每张图片下面对应的文字说明。

代码如下。

#环境配置+初始化driver
option = webdriver.ChromeOptions()
option.add_argument(r"user-data-dir=/Users/yunjiefei/Library/Application Support/Google/Chrome/Default/tmp2")
driver = webdriver.Chrome(executable_path = '/opt/anaconda3/bin/chromedriver',options=option)

url = 'https://www.wsj.com/articles/photos-of-the-day-april-2-1428006374'
driver.get(url) #用模拟浏览器规避反爬
time.sleep(5)
titlename = driver.find_element(By.XPATH,'//*[@id="main"]/header')
source = driver.page_source #模拟浏览器使用beautifulsoup解析
soup = BeautifulSoup(source, 'html.parser') 
idname = soup.find(attrs={'name':'article.id'})['content'] #获取一下idname，可能用到。获取meta数据的方法 attrs={'name':'article.id'})['content']
#titlename = soup.find('div',{'class':'article_header module'})
textlis = []
for image in soup.find_all('img',{'class':'WSJTheme-module--slideshow-img-3g1DH_RVH3q_8Ic61A4cxp'}):
    text = image.get('alt','')
    textlis.append(text)
article = ' '.join(textlis)
content = titlename.text + '\n' + article

想吃十斤奶酪饼

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Python从网站幻灯片形式图集中爬取图片

今天浏览网站时遇到了slideshow格式的图片集，如下图，我需要爬取每张图片下面对应的文字说明。
复制链接

扫一扫

想吃十斤奶酪饼 CSDN认证博客专家 CSDN认证企业博客

码龄4年

7: 原创

117万+: 周排名

28万+: 总排名

5902: 访问

: 等级

103: 积分

273: 粉丝

7: 获赞

9: 评论

21: 收藏

私信

关注

热门文章

最新评论

Python从网站幻灯片形式图集中爬取图片
简单简单小白: 《Python从网站幻灯片形式图集中爬取图片》点赞
使用Python爬取华尔街日报（WALL STREET JOURNAL）全文
chenrcrcrcr: 这个现在有验证码了怎么办呀
根据文件内存使用Python二次爬取因网络波动未爬取到的WSJ文章
CSDN-Ada助手: 恭喜您写下了第5篇博客！标题给人一种探索和解决问题的感觉，非常吸引人。您不仅在文章中提到了网络波动导致未能成功爬取WSJ文章的问题，还给出了解决方案，这展示了您的才华和解决问题的能力。我非常欣赏您在持续创作方面的努力。鉴于您在博客中展现的技术和解决问题的能力，我建议您在下一步的创作中可以更深入地探讨一些与网络爬取相关的主题，比如如何优化爬虫程序的效率，如何应对不同网站的反爬虫策略等等。通过分享您的经验和见解，您可以帮助更多的读者解决类似的问题。期待您在未来的博客中继续分享您的知识和经验，共同进步！
使用Python爬取华尔街日报（WALL STREET JOURNAL）全文
-honeysuckle-: 这个加载配置文件具体要怎么操作呢
Python搭建Spark环境（Mac）
CSDN-Ada助手: 恭喜您写了第7篇博客！标题“Python搭建Spark环境（Mac）”让我非常兴奋，因为我也是一名Python爱好者，并且一直想尝试搭建Spark环境。您的博客对我来说真是太有帮助了！不过，我还希望您能分享一些关于如何使用Spark进行数据处理和分析的实例，这样我就能更好地理解如何应用这个环境了。希望您能继续保持创作，并且我期待着您的下一篇博客！谢谢您的分享！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。