![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
刘建鑫
这个作者很懒,什么都没留下…
展开
-
股吧网站翻页爬取前十页
import requests import os class GuBa: def __init__(self, page): self.run(page) def run(self, page): ''' http://so.eastmoney.com/web/s?keyword=%E5%AE%B6%E7%94%B5%E8%A...原创 2019-04-18 21:24:53 · 343 阅读 · 0 评论 -
高德地图爬取所有城市天气数据
import requests import json class GaoDeMap: def __init__(self): self.run() def run(self): base_url = "https://www.amap.com/service/cityList?version=201941111" respon...原创 2019-04-18 21:26:33 · 934 阅读 · 0 评论 -
HTTP常见的请求头、响应头、响应码
一、HTTP常见的请求头 二、HTTP常见的响应头三、HTTP常见的响应码原创 2019-05-08 19:40:42 · 487 阅读 · 0 评论 -
python爬虫:使用scrapy框架对链家租房深度爬取,并存入redis、mysql、mongodb数据库
1.items.py # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: # https://doc.scrapy.org/en/latest/topics/items.html import scrapy class LianjiaItem(sc...原创 2019-05-08 20:20:10 · 954 阅读 · 0 评论 -
链家租房数据抓取流程、分析
一、抓取前准备工作: 1、创建一个爬虫项目:在指定的文件夹中 scrapy startproject xxx(项目名) 2、在项目的spiders的目录中创建爬虫:scrapy genspider bd.py baidu.com 3、在setting中修改robot协议为False,表示不遵守robot协议 4、启动爬虫:scrapy crawl bd --nolog 不打印日志启动,在爬虫正常情...原创 2019-05-08 20:36:42 · 1464 阅读 · 0 评论 -
scrapy-redis源码解析
1、connection.py: 建立 Redis 连接 SETTINGS_PARAMS_MAP: 将 Redis 参数名映射到 redis 库的参数名 get_redis_from_settings 函数: 从 Scrapy 的 settings 对象获取连接参数并调用 get_redis 建立 Redis 连接 get_redis 函数: 辅助函数,建立 Redis 连接` import ...原创 2019-05-07 22:31:50 · 228 阅读 · 0 评论