数据采集之贝壳新房

最新推荐文章于 2024-06-14 11:43:45 发布

outside-R

最新推荐文章于 2024-06-14 11:43:45 发布

阅读量615

点赞数

分类专栏：数据采集文章标签： xpath python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45044349/article/details/117407768

版权

1、创建爬虫项目

scrapy  startproject  项目名
scrapy  startproject  baiduspide

2、创建爬虫文件名、域名【进入项目里面】

cd 项目名
scrapy genspider  文件名  域名
scrapy genspider  baidu  baidu.com

3、创建爬虫数据项【item.py中定义】
4、编写爬虫文件 baidu.py–>函数parse()解析
5、运行爬虫文件

cd 项目文件
scrapy crawl 文件名
scrapy crawl baidu  -o  baidu.csv

6.scrapy shell www.baidu.com
response.text
response.xpath("//div[@id=‘u1’]/a")
response.xpath("//div[@id=‘u1’]/a/text()")

response.xpath("//div[@id=‘u1’]/a")[0].xpath(“text()”)
response.xpath("//div[@id=‘u1’]/a")[0].xpath("@href")

scrapy shell www.baidu.com

response.xpath("//div[@id=‘u1’]/a")

response.css("#u1 a::text").get()

response.css("#u1 a::attr(href)").get()

实现思路是使用FormRequest发送Post请求模拟登录，请求发送完成后使用XPath表达式验证页面中是否出现logout链接，如果出现logout链接表示登录成功。

scrapy runspider scrapyPost.py

贝壳新房案例
在这里插入图片描述
items.py

class BeikehouseItem(scrapy.Item

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
2
评论
数据采集之贝壳新房

1、创建爬虫项目scrapy startproject 项目名scrapy startproject baiduspide2、创建爬虫文件名、域名【进入项目里面】cd 项目名scrapy genspider 文件名域名scrapy genspider baidu baidu.com3、创建爬虫数据项【item.py中定义】4、编写爬虫文件 baidu.py–>函数parse()解析5、运行爬虫文件cd 项目文件scrapy crawl 文件名scrapy
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

outside-R 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。