python笔记
python
深白色耳机
在学习的道路上勇往直前!
展开
-
python中的scrapy爬虫框架入门使用
创建项目创建爬虫提取数据保存数据通过命令创建出爬虫文件,爬虫文件为主要的代码作业文件,通常一个网站的爬取动作都会在爬虫文件中进行编写。命令:项目路径下执行爬虫名字: 作为爬虫运行时的参数允许爬取的域名:为对于爬虫设置的爬取范围,设置之后用于过滤要爬取的url,如果爬取的url与允许的域不通则被过滤掉。prase函数作用为对url访问后返回的对象进行的操作在项目目录下执行运行爬虫文件运行结果:在项目目录下生成了itcast.html文件分析:1.设置start_urls访问的原创 2022-06-03 20:42:33 · 253 阅读 · 0 评论 -
Python通过selenium与ddddocr库识别验证码的爆破小脚本
最近正在学习python,本菜狗突发奇想用python写一个实现识别验证码的爆破小脚本说干就干,于是上网查找了一下python中有没有验证码识别的库然后就发现了ddddocr这个库,于是想通过ddddocr库和selenium库配合使用首先通过pip安装ddddocr因为pip是去国外下载,所以下载库的时候特别慢,经常超时报错这里我们可以用清华的镜像源进行下载此配置为以后每次pip安装时都用清华的镜像pip config set global.index-url https://pypi.tu原创 2022-05-14 23:07:35 · 1926 阅读 · 0 评论 -
09爬虫-selenium实例
爬取某直播平台所有正在直播的房间信息from selenium import webdriverfrom selenium.webdriver.common.by import Byimport timeclass Douyu(object): def __init__(self): #设置url self.url="https://www.douyu.com/directory/all" #创建浏览器driver对象 self.原创 2022-05-11 14:48:48 · 519 阅读 · 2 评论 -
08爬虫-selenium其它使用方法2
selenium对cookie的处理driver.get_cookies()返回列表,其中包含的是完整的cookie信息!不光有name、value,还有domain等cookie其他维度的信息。所以如果想要把获取的cookie信息和requests模块配合使用的话,需要转换为name、value作为键值对的cookie字典# 获取当前标签页的全部cookie信息print(driver.get_cookies())# 把cookie转化为字典cookies_dict = {cookie[‘nam原创 2022-05-10 13:59:20 · 106 阅读 · 0 评论 -
07爬虫-selenium其它使用方法1,标签切换、窗口切换
selenium标签页的切换获取当前所有的标签页的句柄构成的列表 current_windows = driver.window_handles根据标签页句柄列表索引下标进行切换 driver.switch_to.window(current_windows[0])参考代码示例:#coding:utf-8from selenium import webdriver# 1.创建浏览器对象driver = webdriver.Chrome()# 2.操作浏览器对象driv原创 2022-05-08 20:49:45 · 2185 阅读 · 0 评论 -
06爬虫-selenium定位获取标签对象并提取数据
selenium提取数据知识点:了解driver对象的常用属性和方法掌握driver对象定位标签元素获取标签对象的方法掌握标签对象提取文本和属性值的方法driver对象的常用属性和方法在使用selenium过程中,实例化driver对象后,driver对象有一些常用的属性和方法1.driver.page_source当前标签页浏览器渲染之后的网页源代码2.driver.current_url当前标签页的url3.driver.close()关闭当前标签页,如果只有一个标签页则关闭整个浏览器原创 2022-05-07 09:14:34 · 1401 阅读 · 0 评论 -
05爬虫-lxml模块
通过lxml模块xpath语法爬取贴吧#coding:utf-8import requestsfrom lxml import etreeclass Tieba(object): def __init__(self, name): self.name = name self.url = 'http://tieba.baidu.com/f?kw={}'.format(self.name) self.headers = {原创 2022-05-04 22:49:54 · 615 阅读 · 0 评论 -
04爬虫-xpath节点以及语法
xpath定位节点以及提取属性或文本内容的语法表达式描述nodename选中该元素。/从根节点选取、或者是元素和元素间的过渡。//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。.选取当前节点。. .选取当前节点的父节点。@选取属性。text()选取文本。/:类似于绝对路径查找,/html/head/title//:直接在当前节点下的所有节点中进行查找,类似于之前的jsonpath,/html//title或//tit原创 2022-05-03 14:28:50 · 1321 阅读 · 0 评论 -
03爬虫-jsonpath模块的使用
jsonpath模块的使用场景如果有一个多层嵌套的复杂字典,想要根据key和下标来批量提取value,这是比较困难的。jsonpath模块就能解决这个痛点from jsonpath import jsonpathdata={'key1':{'key2':{'key3':{'key4':{'key5':{'key6':'python'}}}}}}#普通通过字典索引#print(data['key1']['key2']['key3']['key4']['key5']['key6'])#通过js原创 2022-05-02 14:54:41 · 350 阅读 · 0 评论 -
02爬虫-requests.session请求
知识点:掌握 利用requests.session进行状态保持通过requests模块中的session类实例化生成的对象进行get或post请求访问url时,对象会自动存储浏览器中cookie,不用再去在get或post请求头中填写cookie值import requestsimport re# 构造请求头字典headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36原创 2022-05-01 20:27:31 · 967 阅读 · 1 评论 -
01爬虫-requests模块post请求
通过requests模块中的post请求爬取某翻译,实现翻译功能代码以及注释如下import requests #导入requests模块import json #导入json模块class King(object): #定义通过__init__方法定义初始化的参数 def __init__(self, word): self.url = "http://fy.iciba.com/ajax.php?a=fy" #post请求的网址 self.word原创 2022-04-23 11:14:08 · 235 阅读 · 0 评论 -
01-Python基础语法-列表
查找index():返回指定数据所在位置的下标语法:列表序列.index(数据, 开始位置下标, 结束位置下标)name_list = ['Tom', 'Lily', 'Rose']print(name_list.index('Lily', 0, 2)) # 1count():统计指定数据在当前列表中出现的次数name_list = ['Tom', 'Lily', 'Rose']print(name_list.count('Lily')) # 1len():访问列表⻓度,即列表中数据原创 2022-03-29 13:26:54 · 133 阅读 · 0 评论 -
01-Python基础语法-字符串相关函数
查找find():检测某个⼦串是否包含在这个字符串中,如果在返回这个⼦串开始的位置下标,否则则返回-1语法:字符串序列.find(⼦串, 开始位置下标, 结束位置下标)mystr = "hello world and itcast and itheima and Python"print(mystr.find('and')) # 12print(mystr.find('and', 15, 30)) # 23print(mystr.find('ands')) # -1index():检原创 2022-03-29 11:26:48 · 236 阅读 · 0 评论