python爬虫
文章平均质量分 60
34° 微醺酒心
这个作者很懒,什么都没留下…
展开
-
Scapy数据包构建详解
SCAPYScapy是一个强大的,用Python编写的交互式数据包处理程序,它能让用户发送、嗅探、解析,以及伪造网络报文,从而用来侦测、扫描和向网络发动攻击。Scapy可以轻松地处理扫描(scanning)、路由跟踪(tracerouting)、探测(probing)、单元测试(unit tests)、攻击(attacks)和发现网络(network discorvery)之类的传统任务。它可以代替hping,arpspoof,arp-sk,arping,p0f 甚至是部分的Nmap,tcpdump和ts原创 2021-10-04 15:00:06 · 2659 阅读 · 0 评论 -
数据提取-正则表达式
1. 提取数据在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式!正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有正则表达式的概念,Python同样不例外,利用了正则表达式,我们想要从返回的页面内容提取出我们想要的内容原创 2021-05-24 15:57:27 · 405 阅读 · 0 评论 -
Scapy 数据的保存
1. 数据的提取1.1 控制台打印import scrapyclass DoubanSpider(scrapy.Spider): name = 'douban' allwed_url = 'douban.com' start_urls = [ 'https://movie.douban.com/top250/' ] def parse(self, response): movie_name = response.xpath(原创 2021-05-25 11:46:08 · 517 阅读 · 0 评论 -
URLError与cookie
1. Cookie为什么要使用Cookie呢?Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib库保存我们登录的Cookie,然后再抓取其他页面就达到目的了。1.1 Opener当你获取一个URL你使用一个opener(一个urllib.OpenerDirector的实例)。在前面,我们都是使用的默认的opener,也就是url原创 2021-05-24 15:53:57 · 121 阅读 · 0 评论 -
Scapy框架的使用
1 基本使用1.1 创建项目运行命令:scrapy startproject myfrist(your_project_name)文件说明:名称作用scrapy.cfg项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py文件中)items.py设置数据存储模板,用于结构化数据,如:Django的Modelpipelines数据处理行为,如:一般结构化的数据持久化settings.py配置原创 2021-05-25 11:45:42 · 163 阅读 · 0 评论 -
Requests库的用法
1. 介绍对了解一些爬虫的基本理念,掌握爬虫爬取的流程有所帮助。入门之后,我们就需要学习一些更加高级的内容和工具来方便我们的爬取。那么这一节来简单介绍一下 requests 库的基本用法2. 安装利用 pip 安装pip install requests3. 基本请求req = requests.get("http://www.baidu.com")req = requests.post("http://www.baidu.com")req = requests.put("http:/原创 2021-05-24 15:56:41 · 101 阅读 · 0 评论 -
urllib库的高级用法
1. 伪装自己有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作1.1 设置请求头其中User-Agent代表用的哪个请求的浏览器代码如下:from urllib.request import urlopenfrom urllib.request import Requesturl = 'http://www.server.com/login'user_agent = 'Mozilla/4.0 (compatible; MSI原创 2021-05-24 15:51:34 · 108 阅读 · 0 评论