![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
pathon爬虫
文章平均质量分 92
吴志伟Maple
这个作者很懒,什么都没留下…
展开
-
python数据保存到mongodb
本文主要介绍MongoDB和python的连接,将python爬取的数据保存到MongoDB中。以虎扑网为例,爬取网站的文章标题,连接,作者等信息,并保存到MongoDB中。导入相关python库import requestsfrom bs4 import BeautifulSoupimport timeimport randomfrom pymongo import MongoClientimport MySQLdb定义方法来获取当前网页的所有文章信息def get_informat原创 2020-09-14 17:14:43 · 1417 阅读 · 0 评论 -
python爬虫:BeautifulSoup巴乐兔租房信息爬取
找到巴乐兔上海租房网页url:巴乐兔上海通过翻页发现:第一页url:‘http://sh.baletu.com/zhaofang/?entrance=14’第二页url:’**http://sh.baletu.com/zhaofang/p2o1a1/?**seachId=0&is_rec_house=0&entrance=14&solr_house_cnt=28156’第三页url:’**http://sh.baletu.com/zhaofang/p3o1a1/?**seac原创 2020-07-22 21:54:17 · 440 阅读 · 1 评论 -
python爬虫:lxml爬取链家网二手房信息
首先查看下链家网二手房网站(深圳):添加链接描述可以看到如下部分网页截图,我们需要获取的是类似图中红框中二手房的信息话不多说,先把开头的通用代码写下来:import requestsfrom lxml import etreeimport timeheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.原创 2020-07-22 18:32:21 · 1139 阅读 · 1 评论