~喬~-CSDN博客

原创 python 列表平均切割

【代码】python 列表平均切割。

2024-07-11 16:46:58 135

转载 Python处理Unicode字符时出现中文乱码的情况

个人遇见这个问题是在访问一个html页面后，返回给我的是Unicode格式并带中文的标签内容，这时候我就需要将返回过来的内容转换成正常的html标签格式，再从里面获取我需要的标签。当对字符串进行编码后，要对其解码变回中文，这是坑就来了，默认先转的中文识别的是gbk格式这才导致我们得到了乱码而不是我们想要的值。遇见\u开头的编码，如\u0032\u0030\u0031\u0039\u002D\u0031\u0031即为Unicode字符。现在打印：// éšè—å¤‡æ¡ˆä¿¡æ¯å±•ç¤º。

2024-06-25 16:20:19 128

原创 python gbk无法识别打印

【代码】python gbk无法识别打印。

2024-04-02 14:28:52 182

原创 python 定时启动函数

python 定时启动函数。

2024-03-27 11:42:35 164

原创 DrissionPage 处理滑块

python 使用ddddocr库实现滑块验证码滑动验证。自动化测试框架：DrissionPage。

2024-03-12 12:54:07 1857 1

原创图片和PDF 加水印去水印

原理就是把pdf转成一张张图片, 因为水印一般都是浅色且透明,所以根据水印色差对图片整体色差进行调整, 从而去除水印。水印 RGB颜色越高越透明, 所以需要注意别写太死, 留点空间, rgb 是 230 写成 210。原理就是通过模板找到相同形状图案位置,然后根据旁边像素点进行补充。网上查了很多资料, 汇总了几个不错的代码, 顺便做个笔记。找了好多去水印代码,只有这个效果不错,太复杂, 而且后面清洗水印不好清除。2.2就不展示了, 基本没变化。

2024-03-12 11:44:29 582

原创 requests处理 multipart/form-data 请求以及 boundary值问题

关于 Content-type: multipart/form-data可以看一下这篇文章, 分析特别详细HTTP协议之multipart/form-data请求分析put和post区别不大, 只是上传资源的不同方式requests页面常用操作(post、put、get、head、patch、delete方法)关于 put 和 multipart/form-data 就这么多了, 还有一些其他代码也可以参考一下。

2023-09-22 11:36:27 1281

原创 Selenium和Requests搭配使用

之前有提过, 用selenium控制本地浏览器, 提高拟人化,但是效率比较低,今天说一种selenium和requests搭配使用的方法。允许使用工具来检测、检查、调试和分析 Chromium、Chrome 和其他基于 Blink 的浏览器。先用selenium登录网站, 然后获取cookie, requests携带cookie访问。通过执行 CDP 命令，可以在网页加载前运行一段代码，进而改变浏览器的指纹特征。我只是摘抄了一部分, 大佬讲的更详细, 推荐各位去看看。获取到的Cookie。

2023-09-20 16:53:19 1777

原创 Selenium隐藏浏览器特征

此代码将使用Chrome浏览器，并在启动浏览器时使用选项隐藏Selenium特征、设置用户名和密码方式的代理IP和排除或关闭一些Selenium相关开关。然后，使用execute_cdp_cmd命令来执行Google Chrome DevTools协议中的命令，将navigator.webdriver标志的值修改为false或undefined。

2023-09-19 14:27:05 2371

原创 selenium设置ua和代理

【代码】selenium设置ua和代理。

2023-08-28 18:02:52 375

原创 pip清华源

python环境在安装源文件时使用默认安装很慢，使用国内清华源速度比较快，地址如下：# pip install -i https://pypi.tuna.tsinghua.edu.cn/simple gevenhttps://pypi.tuna.tsinghua.edu.cn/simple

2022-05-10 11:26:49 446

转载汽车之家口碑页面字体解密

注意: 汽车之家不同页面的字体反爬也不一样, 看清楚能不能适用这里有大佬教程,非常详细:转载:https://blog.csdn.net/blbq105/article/details/85274676# -*- coding: utf-8 -*-import reimport requestsfrom html import unescapefrom fontTools.ttLib import TTFontfrom bs4 import BeautifulSoupclass Ca

2022-02-17 18:03:54 535

原创爬虫-笔记

1. requests hookrequests中的hook机制, 让我们用来请求得到响应之后去做一些自定义的操作比如打印某些信息、修改响应内容等。具体用法见下面的例子：import requests# 钩子函数1def print_url(r, *args, **kwargs): print("raw_url "+r.url)# 钩子函数2def change_url(r, *args, **kwargs): r.url = 'http://change.url' p

2022-01-14 11:12:16 1242

原创 python调用js样例

1. 正常jsfunction (acc, code) { return acc + code; };2. js嵌套2.1function foo() { var bar = function (acc, code) { return acc + code; }; return bar;}function doencodeacc(acc, code) { return foo()(acc, code);}2.2fu

2022-01-13 17:51:30 249

原创 python调用js

1. 正常调用import execjsprint(execjs.eval("'red yellow blue'.split(' ')"))ctx = execjs.compile(""" function add(x, y) { return x + y; } """)print(ctx.call("add", 1, 2))2. 当js需要调用其他模块或者需要使用windows对象2.1 js修改在js前面加上const jsdom

2022-01-13 17:33:30 974

转载 phantomjs动态转换ip

phantomjs动态转换ipfrom selenium import webdriverfrom selenium.webdriver.common.proxy import Proxyfrom selenium.webdriver.common.proxy import ProxyTypefrom selenium.webdriver.common.desired_capabilities import DesiredCapabilitiesfrom ip import get_ipip2

2022-01-07 14:29:45 184

转载 pyppeteer和selenium远程操控浏览器

1. 配置环境Chrome浏览器是支持远程调试模式的。这个模式打开的情况下，Puppeteer或者Selenium可以通过websocket连上去，进而控制它。首先我们来启动Chrome的远程调试端口。你需要找到Chrome的安装位置，在Chrome的地址栏输入chrome://version就能找到Chrome的安装路径，如下图所示：有了这个以后，我们需要执行命令启动支持远程调试功能的Chrome。如果你的电脑是Mac，那么命令是："/Applications/Google Chrome.app

2021-12-17 10:18:44 3803 6

原创 python转js加密(sha1,base64)

1. js var e = (new Date).toGMTString(), t = "AKIDdlutrcn7F4j62Fskwqbiqrki3q3j40r1vjjw", n = 'hmac id="' + t + '", algorithm="hmac-sha1", headers="x-date", signature="', i = de.HmacSHA1("x-date: " + e, "DqRkSBUCyBklYlwA0pCK7TVdNaSgFp4yAk2G6bcI")

2021-12-02 13:34:45 293

原创 seleniumwire简单使用

seleniumwire简单使用import timefrom seleniumwire import webdriverfrom io import BytesIOimport gzipoptions = webdriver.ChromeOptions()# 防止出现报错:'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte options.add_argument('lang=zh_CN.UTF-8')

2021-12-01 17:52:32 4707 1

原创 excel和csv读写

1. xlsx读取excelxlrd 必须为2.01或之前版本, 其他版本只能支持xlsimport xlrdimport xlwtdef read_excel(): # 打开文件 workBook = xlrd.open_workbook('data/HanXueLi_201801.xlsx'); # 1.获取sheet的名字 # 1.1 获取所有sheet的名字(list类型) allSheetNames = workBook.sheet_names(

2021-12-01 13:56:27 736

转载多线程数量限制

# coding: utf-8import threadingimport timedef fun(semaphore, num): # 获得信号量，信号量减一 semaphore.acquire() print "Thread %d is running." % num time.sleep(3) # 释放信号量，信号量加一 semaphore.release() # 再次释放信号量，信号量加一，这是超过限定的信号量数目，这时会报错Valu

2021-12-01 11:29:07 577

原创 requests.session登录样例+图形验证

requests.session登录案例+图形验证import jsonimport randomimport re, requests, timefrom lxml import etreefrom faker import Factoryfrom PIL import Imageimport pytesseractfrom hashlib import md5class Wkaskci(object): def __init__(self): self.se

2021-11-23 15:04:42 621

原创 pyppeteer 使用案例

pyppeteer 使用案例import timefrom asyncio import sleep, get_event_loopimport requestsfrom pyppeteer import launchfrom random import randomfrom re import compile, Sfrom faker import Factoryclass TaoBaoSpider: def __init__(self): self.width

2021-11-19 13:50:19 234

原创 requests_html render 设置参数

requests_html render 设置参数1. 不使用renderfrom requests_html import HTMLSessionsession = HTMLSession()#验证代理的使用proxie = { "http":"http://{}:密码@主机:端口".format(用户名)}url = “http://httpbin.org/ip”# 参数和用法跟requests差不多response = session.get(url,proxies=pr

2021-11-18 10:06:35 880

原创状态码412,521,cookie包含__jsl_clearance参数

状态码412,521,cookie包含__jsl_clearance=参数最近做爬虫碰见状态码为412和521的网站,分享一下经验样例网站: http://kjj.hefei.gov.cn/public/column/2971?sub=&catId=6718761&nav=3&action=list&type=4&pageIndex=11.headers参数用postman检测了一下,发现只需要UA,Host,Cookie参数![在这里插入图片描述](htt

2021-08-21 15:12:40 1995 4

原创 python时间常用技巧

python时间常用技巧1. 字符串时间互减from datetime import datetimeformat_pattern = "%Y-%m-%d"start_date = "2021-07-27"end_date = "2021-07-30"difference = (datetime.strptime(end_date, format_pattern) - datetime.strptime(start_date, format_pattern))print(difference

2021-07-30 10:28:29 142

原创 Element转HTML和HTML清洗标签

Element转HTML和HTML清洗标签Element转htmlfrom html.parser import HTMLParserfrom lxml import etree, htmlimport requestsresponse = requests.get('https://www.baidu.com')html_element = etree(response) html_text = html.tostring(html_element [0],encoding='utf-8'

2021-07-29 10:35:44 787

原创 Xpath和re常用语法

【代码】Xpath和re常用语法。

2021-07-28 19:37:54 495

原创 Pyppeteer和Flask问题,服务器部署Requests_html问题,多线程调用pyppeteer或requests_html问题

Pyppeteer和Flask问题,服务器部署Requests_html问题,多线程调用pyppeteer或requests_html问题flask的debug模式下调用pyppeteer的冲突多线程调用pyppeteer或requests_html问题centos 8部署pyppeteer和requests_html的问题1. flask 运行 Pyppeteer 报错 “signal only works in main thread”puppeteer在初始化launch时，必须增加以下的参

2021-06-04 15:36:58 746

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_44388373的博客