python爬取链家网数据

最新推荐文章于 2024-08-13 21:38:27 发布

无忧_wy

最新推荐文章于 2024-08-13 21:38:27 发布

阅读量2.2k

点赞数 1

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wuyouagd/article/details/78767735

版权

python 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

由于想从事大数据方面的工作，看到好多公司要求会python，所以开始学习python。简单地看了python的语法,和一些爬虫的案例，于是便自己尝试写一些爬取链家网信息的爬虫。

这个爬虫比较的简单，只爬取了链家网目前的所有新房信息。用到requests进行页面请求，对于爬取后的页面用BeautifulSoup进行解析，pymysql进行数据库操作。整个项目的大致思路是这样的：

先根据任意城市的主页，爬取所有城市的url,信息并入库
然后根据第一步爬取的信息，获取每个城市的页面数
循环遍历每个城市的新房信息，并批量入库

实际爬取过程中，用到了代理，但是代理不稳定老出错，所以这里给出的代码去掉了代理部分，对于上面提到的第一步，也去除了，因为在爬取过程中发现有些页面根据爬取的url会跳转到其他的url,所以在爬取中我对数据库的url按照实际跳转的进行了修改，最后给出了原始的数据，去掉了这部分爬取的代码。总的来说这是我写的第一个稍微正式的python项目，写的很烂，有很多可以改进的地方。最后说明一下提供的代码仅限用于学习途径,不得用途非法途径，否则后果自负，与本人无关。ps:这里用的是python3写的

最后，附上资源地址http://download.csdn.net/download/wuyouagd/10153236

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

无忧_wy CSDN认证博客专家 CSDN认证企业博客

码龄10年

13: 原创

26万+: 周排名

7万+: 总排名

2万+: 访问

: 等级

341: 积分

20: 粉丝

31: 获赞

4: 评论

41: 收藏

私信

关注

热门文章

分类专栏

大数据 1篇
Flink常见问题 1篇
flink 4篇
安卓 4篇
python
spark 1篇
linux

最新评论

Flink 1.13 CliFrontend之runApplication源码解读
大家一起学编程（python）: 遇到好文章，我就是要评论，嘿，就是玩
Flink 1.13 CliFrontend之runApplication源码解读
彼方: 好文，收藏学习了
Android Service 同时使用bindservice和startservice启动的问题
上下求索l: 总结：对于同时调用了两种启动方式的服务，只调用stopservice,服务依旧存在。在对应服务只绑定了一个组件的情况下，只调用unbindservice，服务会销毁。还有，这种服务只会启动一个服务的实例，具体生命周期见https://developer.android.google.cn/images/service_lifecycle.png
百度推送的一些小问题
mclmdream: setNotificationSound可以设置自己制作的声音吗?例如使用raw中的声音setNotificationSound(Uri.parse("Android.resource://"+getPackageName()+"/"+R.raw.messagemusic).toString());

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。