![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫自学系列
xiao52x
这个作者很懒,什么都没留下…
展开
-
爬取声音de
# 姓名: 晓晓# 时间:2021/12/15 21:02import requestsfrom lxml import etreeimport osif __name__=='__main__': if not os.path.exists('xiaofang'): os.mkdir('xiaofang') url='https://www.yespik.com/search-sound/77822.html' headers = {原创 2021-12-15 21:46:47 · 737 阅读 · 0 评论 -
作业(1)
作业一爬取单页import requestsfrom lxml import etreeif __name__=="__main__": headers={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36' } url='https://www.a原创 2021-11-20 17:01:17 · 207 阅读 · 0 评论 -
python爬虫 爬取图片
图片爬取单张图片#网址:https://pic.netbian.com/ 我们爬取:https://pic.netbian.com/4kmeinv/from lxml import etreeimport requestsimport osif __name__=="__main__": if not os.path.exists('zhaopian'): os.mkdir('zhaopian') headers={ 'user-agent原创 2021-11-19 23:09:44 · 472 阅读 · 1 评论 -
python爬虫第7章(1)
selenium简介能不能让我的程序连接到浏览器 . 让浏览器来完成各种复杂的操作, 我们只接受最终的结果selenium: 自动化测试工具可以: 打开浏览器. 然后像人一样去操作浏览器程序员可以从selenium中直接提取网页上的各种信息环境搭建: pip install selenium -i 清华源 下载浏览器驱动:https://npm.taobao.org/mirrors/chromedriver 把解压缩的浏览器驱动 chromedriver 放在原创 2021-11-25 16:41:28 · 330 阅读 · 0 评论 -
python爬虫第八章:(1)scrapy框架的基本使用
scrapy框架什么是框架?就是一个集成了很多功能并且具有很强通用性的一个项目模板。如何学习框架?专门学习框架封装的各种功能的详细用法。什么是scrapy?爬虫中封装好的一个明星框架。功能:高性能的持久化存储,异步的数据下载,高性能的数据解析,分布式scrapy框架的基本使用环境的安装:- mac or linux:pip install scrapy- windows: - pip install wheel - 下载twisted,下载地址原创 2021-11-22 16:43:28 · 221 阅读 · 0 评论 -
python爬虫第七章:(4)无头浏览器+规避检测
无头浏览器#实现无可视化界面from selenium.webdriver.chrome.options import Options#实现无可视化界面的操作 如果失败了,把chrome_options改为optionschrome_options = Options()chrome_options.add_argument('--headless')chrome_options.add_argument('--disable-gpu')#如何实现让selenium规避被检测到的风险br原创 2021-11-21 15:49:37 · 725 阅读 · 0 评论 -
python爬虫第七章:(3)模拟登陆QQ空间
模拟登陆QQ空间from selenium import webdriverfrom time import sleep#实例化一个浏览器对象(传入浏览器的驱动成)bro=webdriver.Chrome(executable_path='./chromedriver')#让浏览器发起一个指定url对应请求bro.get('https://qzone.qq.com/')#定位iframebro.switch_to.frame('login_frame')#标签定位a_tag=bro原创 2021-11-21 15:46:11 · 310 阅读 · 0 评论 -
python爬虫第七章:(2)动作链和 iframe 的处理
selenium处理iframe如果定位的标签存在于iframe标签之中,则必须使用 switch_to.frame(id)动作链(拖动):from selenium.webdriver import ActionChains实例化一个动作链对象:action = ActionChains(bro)click_and_hold(div):长按且点击操作move_by_offset(x,y)perform()让动作链立即执行action.release()释放动作链对象#htt原创 2021-11-21 14:46:28 · 567 阅读 · 0 评论 -
python爬虫第五章:(2)模拟登陆
cookiecookie简介Cookie:类型为“小型文本文件”,是某些网站为了辨别用户身份,进行Session跟踪而储存在用户本地终端上的数据(通常经过加密),由用户客户端计算机暂时或永久保存的信息cookie和爬虫关系cookie不仅可以用于为服务器的用户身份信息储存和状态保持,还能够用于在爬虫大部分的反爬,在默认情况下爬虫只能请求 html文本资源,这意味着他们并不会主动完成浏览器保存cookie的操作,cookie反爬正是利用了这个特点。sometimes,对一张页面进行数据请求的时候原创 2021-11-18 15:12:13 · 129 阅读 · 0 评论 -
python爬虫第五章:(1)模拟登陆
request 高级使用1.模拟登陆一、模拟登录: 爬取基于某些用户的用户信息。二、需求:对人人网进行模拟登录。点击登录按钮之后会发起一个post请求post请求中会携带登录之前录入的相关的登录信息(用户名,密码,验证码…)验证码:每次请求都会变化模拟人人网登陆:编码流程:1.验证码的识别,获取验证码图片的文字数据2.对post请求进行发送(处理请求参数)3.对响应数据进行持久化存储1.登陆后抓取如图所示的包2.登陆的账号、密码、验证码(post请求中会携带登录之前录原创 2021-11-17 13:30:41 · 2916 阅读 · 0 评论 -
python爬虫:第四章 在(1)验证码识别
第四章 验证码识别1.验证码识别验证码和爬虫之间的爱恨情仇?1.1、反爬机制:验证码.识别验证码图片中的数据,用于模拟登陆操作。识别验证码的操作:人工肉眼识别。(不推荐)第三方自动识别(推荐)第三方库:tesserocr看csnd博主:「 25’ h 」超级鹰:https://www.chaojiying.com/user/云打码:http://www.yundama.com/demo.html云打码的使用流程:注册:普通和开发者用户登录:普通用户的登录:查询该用户是否原创 2021-11-16 19:39:07 · 122 阅读 · 0 评论 -
python爬虫第三章:(三)xpath进行数据解析
xpath解析xpath解析:最常用且最便捷高效的一种解析方式。通用性。1、xpath解析原理:1.实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中。2.调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。2、环境的安装:pip install lxml3、如何实例化一etree对象:from lxml import entree1.将本地的html文档中的源码数据加载到etree对象中:etree.parse(filrPath原创 2021-11-17 13:35:22 · 895 阅读 · 0 评论 -
python爬虫第三章:(二)bs4进行数据解析
2、bs4进行数据解析2.1 数据解析的原理1.标签定位2.提取标签、标签属性中存储的数据值2.2、bs4数据解析的原理:1、实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中2、通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取2.3、环境安装pip install bs4pip install lxml2.4、如何实例化BeautifulSoup对象:from bs4 import BeautifulSoup原创 2021-11-15 12:47:28 · 385 阅读 · 0 评论 -
python爬虫第三章:数据解析(一)正则
数据解析‘r’:只读。该文件必须已存在。‘r+’:可读可写。该文件必须已存在,写为追加在文件内容末尾。‘rb’:表示以二进制方式读取文件。该文件必须已存在。‘w’:只写。打开即默认创建一个新文件,如果文件已存在,则覆盖写(即文件内原始数据会被新写入的数据清空覆盖)。‘w+’:写读。打开创建新文件并写入数据,如果文件已存在,则覆盖写。‘wb’:表示以二进制写方式打开,只能写文件, 如果文件不存在,创建该文件;如果文件已存在,则覆盖写。‘a’:追加写。若打开的是已有文件则直接对已有文件操作,若打开原创 2021-11-15 11:00:57 · 115 阅读 · 0 评论 -
python爬虫第二章:(1)requests模块
爬虫(二)requests模块urllib模块requests模块01.requests基础**requests模块:**python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高。作用:模拟浏览器发请求。使用流程/编码流程指定url基于requests模块发起请求获取响应对象中的数据值持久化存储02.实战编码1.需求:爬取搜狗主页import requestsif __name__=="__main__": #第一步:指定url原创 2021-11-14 20:16:30 · 697 阅读 · 0 评论 -
python爬虫:第一章(1)http协议&https协议
http协议&https协议http协议概念:就是服务器和客户端进行数据交互的一种形式。常用请求头信息User-Agent:请求载体的身份标识Connection:请求完毕后,是断开连接还是保持连常用响应头信息Content-Type:服务器响应回客户端的数据类型https协议:安全的超文本传输协议加密方式对称秘钥加密非时称秘钥加密证书秘钥加密...原创 2021-11-13 19:43:59 · 554 阅读 · 0 评论 -
python爬虫第七章:(1)selenium简介
selenium简介需求:爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据,网站(http://scxk.nmpa.gov.cn:81/xk/)selenium模块的基本使用问题:selenium模块和爬虫之间具有怎样的关联?便捷的获取网站中动态加载的数据便捷实现模拟登录什么是selenium模块?基于浏览器自动化的一个模块。selenium使用流程:环境安装:pip install selenium下载一个浏览器的驱动程序(谷歌浏览器)原创 2021-11-20 20:19:29 · 469 阅读 · 0 评论