爬虫基础
文章平均质量分 65
长安白猫
python小白 爬虫爱好者,自动化测试
展开
-
mac电脑,charles,安卓手机如何配置代理,以及配置代理之后无法上网。已解决
设备:电脑:mac book pro手机:小米10charles:4.5.6方法一:步骤:首先确保电脑,手机在同一局域网,charles设置代理:proxy -> proxysettings;设置如下:(端口号可以自己设置,默认为8888)手机端设置代理:设置 -> wlan -> 点击你连接的wifi进入详情,找到代理 -> 将代理改为手动,输入你的主机名(就是连接的wifi的ip),输入你设置的端口号,点击保存,(查看IP和你设置的端口号可以在charl原创 2020-09-04 12:11:13 · 5921 阅读 · 0 评论 -
selenium基础(续,主要以演示代码为主)
安装:Chromedriver操作系统 chrome chromedriver 三者版本要相同pip install seleniumselenium的优缺点缺点:慢,大优点:自动处理js# 利用selenium构建cookie池,再利用requests模块携带cookie去发送请求页面等待手动实现显示等待:按照规定的次数,规定的频率,不断判断某个标签是否存在,如果...原创 2019-08-11 20:13:28 · 262 阅读 · 1 评论 -
高性能爬虫的实现(多进程,多线程,线程池,协程池)
爬取糗事百科,正常爬取import datetimeimport requestsfrom lxml import etreeclass Qiushi(object): def __init__(self): self.url = 'https://www.qiushibaike.com/8hr/page/{}/' self.headers = {...原创 2019-08-11 10:53:48 · 564 阅读 · 0 评论 -
python 爬虫 之 数据提取
所有代码均是在虚拟机的环境下写的,如果如果直接粘贴代码在win的环境下运行有可能会出bug(虚拟机是 linux 系统)1. 数据类型结构化数据json,xml,处理方式:直接转化为python类型非结构化数据HTML, 处理方式:正则表达式,xpath2. json模块 json.loads() json字符串类型转换成python json.dumps() py...原创 2019-08-08 19:42:13 · 837 阅读 · 0 评论 -
requests 模块的使用
1. 使用requests 发送post请求 responst = requests.post(url, data={请求体} )2. 代理 正向代理和反向代理的区别 反向代理:站在客户端的角度上,为服务器代理的都叫反向代理 正向代理:站在客户端的角度上,为客户端代理的都叫正向代理...原创 2019-08-05 16:15:48 · 393 阅读 · 1 评论 -
爬虫基础
爬虫的概念模拟浏览器 发送请求 获取响应爬虫的分类通用爬虫 通常指搜索引擎的爬虫聚焦爬虫爬虫的流程1. url/url_list2. 发送请求获取响应3. 对响应内容进行提取 a. 提取数据,处理或保存 b. 提取url,重复步骤2HTTP和HTTPS的复习1. http和https的概念 http 超文本 传输 协议 80端口 HTTPS http+ssl(...原创 2019-08-05 15:57:29 · 137 阅读 · 0 评论 -
python mongodb数据库的基础教程
Mongodb 数据库一、优势:(集合,去重)易扩展:数据之间无关系大数据量,高性能:数据库的结构简单,非关系性灵活的数据模型:无需事先为要存的数据建立字段,随时可以储存自定义的数据格式,二、安装这个安装时基于Ubuntu虚拟机的安装(虚拟机16.04)5. 命令安装:安装:sudo apt-get install mongodb 或 sudo apt-get install ...原创 2019-07-23 10:07:10 · 381 阅读 · 0 评论 -
python之scrapy框架(1)安装与一般流程
scrapy框架scrapy框架使用了Twisted['twɪstɪd]异步网络框架,可以加快我们的下载速度。默认同时16个并发请求安装:scrapy命令:sudo apt-get install scrapy 或者 pip install scrapy一、异步和非阻塞的区别异步是过程,非阻塞是状态异步:调用在发出之后,这个调用就直接返回,不管有无结果,异步是过程非阻塞:关注的是程序...原创 2019-07-26 13:48:33 · 272 阅读 · 0 评论 -
反爬与反反爬的简单介绍
反反爬:尽可能的去模拟浏览器,浏览器在如何操作,代码中就如何去实现。浏览器先请求了地址url1,保留了cookie在本地,之后请求地址url2,带上了之前的cookie,代码中也可以这样去实现。反爬:验证用户身份 (需要模拟用户身份)分析用户行为 (模拟用户行为)访问频率:ip代理池,多账号,阈值,不断测试看看判断爬虫与用户的临界值在线时间:设置休眠设置陷阱: 仔细观察吧,数据隐...原创 2019-07-22 08:41:30 · 682 阅读 · 0 评论 -
selenium 基本使用
使用代码流程from selenium import webdriverdriver = webdriver.Chrome()driver.get('http://www.baidu.com')截图# 截图功能# driver.save_screenshot('python.png')el = driver.find_element_by_xpath('//*[@id="...原创 2019-07-21 08:53:11 · 379 阅读 · 0 评论 -
xpath 语法与使用
基本语法xpathxpath可以帮助我们从 elements 中定位数据选择节点(标签)/html/head/meta : 能够选中html下的head下的所有meta标签// 能够从任意节点开始选择//li 当前页面上的所有li标签/html/head//link head下的所有的link标签@符号的用途选择具体某个元素//div[@class...原创 2019-07-12 02:48:00 · 697 阅读 · 0 评论