![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
yitian1585531
这个作者很懒,什么都没留下…
展开
-
爬拉勾网并进行可视化分析
爬取动态网页-拉勾网:获取数据:拉勾网通过ajax后台数据动态加载。爬取‘爬虫’岗位的关键字,并存入到本地MongoDB中,通过pandas读取爬取的岗位数据可视化展示。网站加入了反爬cookies,需携带cookies才返回需要的数据,需登录后获取cookies发送post请求。import requestsimport jsonimport time,pymongoMO...原创 2018-08-30 11:34:09 · 245 阅读 · 0 评论 -
爬虫实战-requests
01.爬虫基本原理:爬虫:向网站发起请求,获取响应内容后解析并提取有用数据的程序#1、发起请求使用http库向目标站点发起请求,即发送一个RequestRequest包含:请求头、请求体等#2、获取响应内容如果服务器能正常响应,则会得到一个ResponseResponse包含:html,json,图片,视频等#3、解析内容解析html数据:正则表达式,第三方解析...原创 2019-03-29 14:04:36 · 267 阅读 · 0 评论 -
scrapy之分布式爬虫
scrapy之分布式爬虫:修改该settings中的配置信息:替换scrapy调度器SCHEDULER = "scrapy_redis.scheduler.Scheduler"添加去重的classDUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"添加pipeline如果添加这行配置,每次爬取的数据也都会入到re...原创 2019-04-12 13:53:03 · 189 阅读 · 0 评论 -
mitmdump抓包+appium滑动解析App数据
对得到App电子书进行抓取,数据分析最受欢迎的电子书:遇到存储MongoDB时pymongo导包错误,应该是一开始建文件是时未引入包,放到包文件目录可以执行。目前先存txt文件在通过MongoDB导入,有点麻烦。mitmdump代码:from mitmproxy import ctximport json# https://blog.csdn.net/yyz_yinyua...原创 2019-03-25 11:54:13 · 839 阅读 · 1 评论 -
房天下全国658个城市新房,二手房爬取
房天下北京二手房分布式抓取:import scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Rulefrom scrapy_redis.spiders import RedisCrawlSpiderclass LianjiaSpider(Redi...原创 2019-01-09 23:26:40 · 2123 阅读 · 1 评论 -
scrapy解析与案例-电影天堂全站
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。Scrapy主要包括了以下组件:引擎(Scrapy)用来处理整个系统的数据流, 触发事务(框架核心)调度器(Scheduler)用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重...原创 2019-01-08 08:52:43 · 711 阅读 · 0 评论 -
爬小猪短租发布的房子信息
通过输入国内,国外,城市名只能抓取13页的信息。。。木鸟短租可以尝试抓取,主要里面有文章import requests,re,timefrom lxml import etree#城市列表:#https://www.cnblogs.com/114811yayi/p/7061674.html#获取每个城市的urlheaders={"User-Agent":"Mozilla/5.0...原创 2019-01-02 10:45:46 · 561 阅读 · 0 评论 -
淘宝商品的抓取
selenium抓取淘宝商品,需要登录页面才能访问,之前的代码不能用了,淘宝更新登录页面能识别出selenium访问,直接给你滑动验证码,搞了半天,还是不行,直接识别出selenium给反爬了,试了支付宝登录还是不行,最好用了微博的登录进去了,可以抓取了。参考代码:...原创 2019-01-05 20:23:22 · 999 阅读 · 0 评论 -
豆瓣五个国家的最热电视剧的抓取并可视化展示
数据的抓取:存到mongodb中用pandas读取:# coding=utf-8import requests,pymongo,timeimport jsonclass DoubanSpider: def __init__(self): client = pymongo.MongoClient('localhost',port=27017) ...原创 2018-11-22 22:06:26 · 693 阅读 · 1 评论 -
爬虫实战-百度地图API的调用访问地图数据
import requests,json,time#https://blog.csdn.net/suwenkun1126/article/details/78343150def getjson(palace,page_num): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KH...原创 2018-11-22 16:02:13 · 1872 阅读 · 0 评论 -
爬虫实战-北京链家,安居客二手房的爬取
链家mobie北京二手房5w多信息抓取,存MongoDB后进行数据可视化import scrapyfrom scrapy_redis.spiders import RedisCrawlSpider# 57557套class LianjiaSpider(RedisCrawlSpider): name = 'lianjia' allowed_domains = ['m....原创 2018-11-22 16:00:22 · 3032 阅读 · 0 评论 -
爬虫实战-微博主页内容,评论
微博可用selenium获取页面,分析页面数据,提取数据,就是有点慢;可以对手机端api数据提取:scrapy链接可以通过粉丝列表,关注列表取出微博id后依次循环抓取全站,反爬需cookies访问,构建cookies池反反爬,代理ip等反爬手段,单页分析:import re,jsonimport requestsimport pandas # 没接触pandas之前,一条一条的...原创 2018-11-17 11:35:30 · 912 阅读 · 0 评论 -
Tor服务器实现动态Ip的切换访问豆瓣电影
需安装Tor浏览器,动态切换IPimport socket,socks,requestsfrom stem import Signalfrom stem.control import Controllerimport timefrom lxml import etreecontroller = Controller.from_port(port = 9151)controlle...原创 2018-11-22 15:57:47 · 853 阅读 · 0 评论 -
抓取空气质量指数AQI_PM2.5历史数据,可视化展示
抓取空气质量指数AQI_PM2.5历史数据,可视化展示:url=‘http://www.tianqihoubao.com/aqi/hangzhou-201810.html’杭州的空气质量数据,可以在主页抓取全国的pm2.5数据展示import time,requests,reimport pandas as pdfrom lxml import etree#https://blog...原创 2018-11-16 16:00:12 · 9133 阅读 · 6 评论 -
爬虫实战-豆瓣电影Top250
爬豆瓣电影Top250电影信息,电影简介,热门评论。。。from lxml import etreeimport requests,re,timeclass douBan(): def __init__(self): self.headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) Appl...原创 2018-11-15 13:56:05 · 659 阅读 · 0 评论 -
scrapy_redis爬取京东图书
爬虫的基本流程:scrapy框架的爬虫流程: 使用scrapy_redis爬取京东图书:jd.py# -*- coding: utf-8 -*-import scrapyfrom jdbook.items import JdbookItemfrom copy import deepcopyimport jsonimport urllib#存不...原创 2018-11-07 23:31:13 · 390 阅读 · 0 评论 -
python-数据去重
简单去重scrapy去重scrapy-redis 去重布隆去重原创 2019-08-03 00:25:06 · 1081 阅读 · 0 评论