从链家爬取北京各区二手房房价进行分析并实现数据可视化

最新推荐文章于 2024-06-16 10:39:57 发布

清纯丽人阴婷

最新推荐文章于 2024-06-16 10:39:57 发布

阅读量5.5k

点赞数 1

文章标签： python 数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45948271/article/details/122266845

版权

前言

最近，本可人儿最近在学习大数据的分析和计算，正好利用所学的Spark的相关知识做一点小东西。使用的语言是python。

使用工具

爬虫：Scrapy框架和Xpath数据解析
数据存储：MySQL
数据分析：Spark 3.2.0
数据可视化：pyecharts库
IED：Pycharm
OS：Ubuntu 20.04

设计步骤

一、Hadoop和Spark的安装配置
这些工具的安装和配置都在站内可以找到，本可人儿安装的Hadoop和Spark只是本地模式，没有构建集群。

二、爬虫代码的编写
1、登录链家官网、进入二手房页面，进入二手房具体页面，观察具体需要爬取数据的位置。
在这里插入图片描述
可以发现，主要爬取的信息（楼盘名，房价，所在区名）位于body标签下的class值为overview的div标签下的class值为aroundInfo的div标签下，可以通过右键点击相应信息的标签，复制xpath路径，从而定位信息

2、定制爬虫
在Scrapy爬虫模板下的item.py文件中定制爬取信息，在middleware.py中编写代理中间件和随机请求头中间件，随机请求头使用fake_useragent库。在新建的爬虫文件中编写爬虫代码。修改pipeline.pyÿ

最低0.47元/天解锁文章

清纯丽人阴婷

关注

1
点赞
踩
29

收藏

觉得还不错? 一键收藏
2
评论
从链家爬取北京各区二手房房价进行分析并实现数据可视化

姐妹们只是比较豁出去比较敢一点
复制链接

扫一扫

清纯丽人阴婷 CSDN认证博客专家 CSDN认证企业博客

码龄5年

5: 原创

111万+: 周排名

38万+: 总排名

9079: 访问

: 等级

80: 积分

13: 粉丝

3: 获赞

10: 评论

40: 收藏

私信

关注

热门文章

分类专栏

nlp学习中的问题 2篇
笔记

最新评论

使用OCTIS进行主题模型BERTopic的评估
糖醋里脊65: 请问你的python版本是多少呢
使用OCTIS进行主题模型BERTopic的评估
Shineyueying: 请问这个库怎么安装啊
关于NLTK中tokenizers的问题
CSDN-Ada助手: 亲爱的博主，非常感谢你分享关于NLTK中tokenizers的问题的博文！你的努力和创造力让人印象深刻。写作不仅需要知识和技巧，更需要耐心和热情，你将这些完美结合起来，为读者带来了有价值的内容。基于你对NLTK的熟悉，我想为你生成下一篇可能创作的博客的标题："探索NLTK中不同tokenizers的性能对比"。这篇文章可以讨论不同的tokenizers及其在处理文本时的效果和速度。读者将更深入地了解每种tokenizer的优缺点，并能在实际应用中根据不同需求作出明智的选择。期待你的继续创作，共同探索更多有趣的NLTK主题！
关于NLTK中tokenizers的问题
CSDN-Ada助手: 恭喜您在NLTK中探索出tokenizers的问题，并写下了这篇博客。您的文章内容清晰明了，让读者对NLTK有了更深入的了解。在下一步的创作中，建议您可以尝试将NLTK与其他自然语言处理工具结合使用，分享您的心得和经验。再次祝贺您的创作，期待您的更多精彩文章。 CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
从链家爬取北京各区二手房房价进行分析并实现数据可视化
我能发顶刊: 大神，你这个最近的成交房价能爬到嘛？现在都不显示房价了

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。