ZCC的专栏

每天坚持看书和写作,相信每天的一小步,将会是人生的一大步! 形成、知化、流动、屏读、使用、共享、过滤、重混、互动、追踪、提问、开始!...

Scrapy框架利用CrawlSpider创建自动爬虫

一、适用条件    可以对有规律或者无规律的网站进行自动爬取  二、代码讲解   (1)创健scrapy项目 E:myweb>scrapy startproject mycwpjt New Scrapy project 'mycwpjt', using template dir...

2017-07-27 09:48:43

阅读数:2491

评论数:2

编写自动爬取网页的爬虫

一、item的编写 # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentation in: # http://doc.scrapy.org/en/latest/topics...

2017-07-26 21:52:48

阅读数:968

评论数:0

获取斗鱼图片

一、总体思路 从网页代码里获得你要图片。这里我们需要简单的分析一下该网页。 当我们把鼠标移到地址上的时候就会出现该图片,这个就是我们要爬取的图片。 这个图片是在 data-original 后面,我们就需要进行匹配,通过正则表达式很快就可以达到目的。 网页代码片段 1 i...

2017-07-23 22:50:47

阅读数:407

评论数:0

学习Scrapy框架

一、Scrapy介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。抓取网页...

2017-07-22 21:12:21

阅读数:222

评论数:0

爬取今日头条上的图片

一、动态页面逆向分析爬取 (1)今日头条搜索界面如上: (2)页面分析获取Jason数据格式 http://www.toutiao.com/search_content/?offset=20&format=json&keyword=美女&autoload=true&...

2017-07-22 17:09:29

阅读数:342

评论数:0

常见python爬虫框架

一、python爬虫框架    一些爬虫项目的半成品 二、常见python爬虫框架   (1)Scrapy:很强大的爬虫框架,可以满足简单的页面爬取(比如可以明确获知url pattern的情况)。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面,如wei...

2017-07-21 16:26:34

阅读数:6550

评论数:0

爬虫的定向爬取

一、爬虫的定向爬取技术: 根据设置的主题,对要爬取的网址或者网页中的内容进行筛选。       二、爬虫的信息筛选方法          (1) 通过正则表达式筛选          (2)通过XPath表达式筛选 (Scapy经常使用)          (3)通过xslt 筛选 ...

2017-07-21 15:49:47

阅读数:325

评论数:4

爬虫的浏览器伪装

一、常见的反爬虫机制 (1)通过分析用户请求的Headers信息  构造用户请求的Headers,即设置好"User-Agent""Referer"字段信息 (2)检测用户行为:判断同一个ip在短时间内是否频繁访问对应的网站  使用代理服务器经常...

2017-07-20 09:03:59

阅读数:204

评论数:0

手写python爬虫第二弹

一、微信爬虫 import re import urllib.request import time import urllib.error #代理服务器地址 http://yum.iqianyue.com/proxy #模拟成浏览器 headers=("User-Agent"...

2017-07-18 15:58:51

阅读数:582

评论数:0

手写python爬虫

一、图片爬虫  (1)京东手机图片的抓取 import re import urllib.request def craw(url,page): html1=urllib.request.urlopen(url).read() html1=str(html1) pat1...

2017-07-18 10:23:51

阅读数:452

评论数:0

正则表达式与Cookie

一、我们在进行字符串的处理时,希望按照自定义的规则进行处理,这些规则称为模式。可以用正则表达式描述这些规则,所以正则表达式也称为模式表达式。在python 中使用re 模块来实现正则表达式的功能。   二、正则表达式常见的原子         (1)普通字符:数字、大小写字母、下划线等     ...

2017-07-17 16:49:44

阅读数:442

评论数:0

网络爬虫实现的原理

一、爬行策略         深度优先爬行策略、广度优先爬行策略、大站优先策略、反链策略、OPIC策略、Pagerank策略。        二、网页分析算法       (1)基于用户行为的网页分析算法: 根据用户对网页的访问行为及其评价            (2)基于网络拓扑的网页分...

2017-07-15 16:03:22

阅读数:345

评论数:0

爬虫基本概念

一、爬虫的基本概念         二、聚焦网络爬虫架构      三、搜索引擎工作原理    四、网络爬虫的功能    五、网络爬虫小结

2017-07-14 16:38:59

阅读数:259

评论数:0

搭建scapy流程

第一步:当然是安装python了,本人安装的是2.7.1版本 第二步:按照官网的提示,我们先安装pywin3,依赖下面几个包:              1. 安装zope.interface              2. 安装pyopenssl             ...

2017-01-01 16:39:14

阅读数:195

评论数:0

pyhton爬虫Scrapy架构分析

所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,更专业的描述就是,抓取特定网站网页的HTML数据。  Python 开源的爬虫框架Scrapy是一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以 用于数据挖掘、监测和自动化测...

2017-01-01 16:10:41

阅读数:214

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭