- 博客(21)
- 收藏
- 关注
原创 读取xlsx文件,并写入到csv中
这个文章主要是为了方便我们读取文件,具体的实现我们来看操作没有pandas的可自行下载pip install pandas# 这里我们需要用到pandas模块import pandas as pdimport codecsimport csvresult = pd.read_excel(r'xxxx', sheet_name='')""":param 第一个位置为path路径 第二个位置为文件中多个的话第几个的名称"""data = []for i in resu
2021-09-24 19:21:17
733
原创 scrapy中callback无法调用的原因
就如标题所说当碰到scrapy框架中callback无法调用,一般情况下可能有两种原因scrapy.Request(url, headers=self.header, callback=self.details)1,但是这里的details无法执行,其实这里我们就可以想到可能是scrapy过滤掉了,我们只需要在这个 scrapy.Request() 函数中将参数放入dont_filter=True加入进去。2,如果发现还是不行就可能是因为allowed_domains这个赋值的时候我们赋值的是别的u
2021-08-31 19:56:06
1469
1
原创 列表字典去除一个其中因为一个值把整个字典去除掉地址不发生变化
不多说直接上代码a = [{'a':1,'b':2},{'a':3,'b':4},{'a':5,'b':6}]print(id(a),a)#结果"""2253587052096 [{'a': 1, 'b': 2}, {'a': 3, 'b': 4}, {'a': 5, 'b': 6}]"""[a.pop(i) for i,v in enumerate(a) if v['a']==3]print(id(a),a)"""2253587052096 [{'a': 1, 'b': 2}, {'a
2021-07-28 18:12:19
108
原创 猿人学上的初级js加密
本次文章主要是根据任务提示拿到后面两页的数据,首先我们来看图我们打开f12调试会发现,这里对m进行了bs64编码,下面我们就要去对这个参数看看是怎样的一个加密方式,这里我们进行断点进行调试,也可以直接看到所径流的js这里我是直接点开的request这个,会发现进行的一些传参和引用这里我们就可以明显的看到了是通过 yuanrenxue+页数 然后进行的bs64编码,访问的时候对其url进行的编码,这些都知道以后我们来进行写代码。import requestsimport base64imp
2021-07-22 12:11:29
155
原创 xlsx合并去重
写的原因是因为我们处理组的小伙伴来问我,然后看他们的操作特别的麻烦,于是写了一个xlsx的合并去重,好了不废话了,下面开始进入主题引入pands没有的可以直接pip install pandasimport pandas as pdimport os# 这个放的是文件的路径,写的时候自己也可以用代码自己指定,我这里就不写了excel_dir = r''os.chdir(excel_dir)li = []for i in os.listdir(excel_dir): li.appen
2021-06-22 18:05:48
295
原创 frida hook连接夜神模拟器
下面我们介绍具体的实现,模拟器的下载我就不放在上面了,这里是已经下载好了模拟器,好了下面具体的操作1.首先将夜神里面的原先的adb.exe和nox_adb.exe备份一下,备份为adb-夜神原本.exe和nox_adb-夜神原本.exe;2.然后将adb1.0.32下面的adb.exe文件复制到夜神目录下注意,两个版本要一致,不然会报错,有可能找不到模拟器3. 然后去GitHub上下载对应frida-server:https://github.com/frida/frida/releases
2021-06-14 11:52:31
2329
原创 列表字典去重
今天上班同事问列表中有几个字典,键重复,值有的一样有的不一样,问我怎么实现,防止还有这种情况发生特写次文章,好了不多说了,让我们进入代码看具体实现吧a_list = [{'1':1,'2':2,'3':3},{'1':1,'2':2,'3':3},{'1':1,'2':2,'3':3},{'1':1,'2':4,'3':3}]def _remove(dict_list): seen = set() new_list = [] for dict_nums in dict_list:
2021-06-03 13:03:43
445
原创 在post请求构造data值得时候发现得加密
在采集网页得时候以为正常得网址,构造得时候只构造了当前页数,后来发现无法请求成功,然后发现传入的参数每次都会在你翻页的时候发生变化,好了下面我们来看第一眼我们是不是以为都是正常的请求就行了,因为页码什么的都有,后来返现code这个参数一直发生变化,当时还以为是cookie的问题后来发现是js加密,后面我们找到js肯定不是在jquery里面了,所以我就进去下面这个js去看,发现果然是这个在加密通过看这里你应该就能看出来他的加密了,下面我们只需要调试就行了,调试发现这个值正是我们要传入的参数,我们拿
2021-03-17 17:05:28
410
原创 导出csv文件
今天写的是导出的csv文件,在数据爬取的时候方便我们检查下面开始我们的代码操作import csvfrom datetime import datetimeimport osimport pandasclass ItemFileMixIn: # 带OS开头的,说明是用python,os包拼接的文件路径,不存在操作系统不兼容的问题 ROOT_DIR = root_path = os.path.abspath(os.path.dirname(__file__)).rstrip(
2021-02-19 10:24:51
636
原创 本地python库与其离线包批量导出以及python第三方库快速批量安装
本地python库与其离线包批量导出以及python第三方库快速批量安装首先进入你的黑窗口,pip freeze => request.txt然后就生成了你想要的文件了,我这里是直接在桌面生成的,你可以cd导你的桌面去生成,如果python版本不对应的话,你也可以看你当前的版本是多少,然后去选择你要生成的版本。>pip -V #print(pip 20.2.3 from c:\python39\lib\site-packages\pip (python 3.9))#然后你可以在你生
2021-02-06 11:17:43
238
原创 pycharm中的内置小应用----只为代码好看方便
实时监控自己的代码出现错误,防止错过,这里我们就需要用到自己的邮件了好了,具体我们也不废话了,下面让我们来看代码import osimport tracebackimport smtplibfrom email.mime.application import MIMEApplicationfrom email.mime.multipart import MIMEMultipartfrom email.mime.text import MIMETextclass Carry_files_E
2021-01-26 17:02:59
127
原创 在解析页面的时候碰到AES加密
在当时解析网页的时候,以为只是一个普普通通的请求,一路畅通无阻,结果在解析文本的时候发现他给了一大串的加密过后的东西,通过看这个页面显示的发现是通过AES加密的在这里可以看到有一大陀的数字字母片段,访问的页面需要的内容是没有的,那么这里其实可以看出是AES加密的,那么我们只需要去找到加密的过程进行解密就可以了,好了下面我,我们开始最后我们在js中找到了,显示我们可以看一下他存储的这些解密的可以直接看到然后我们根据它里面提示的这些密码账号可以直接进行解密的代码奉上from Crypto.Cipher
2020-10-20 09:52:28
188
原创 爬虫取文本格式的更加简易的操作正则
这个是对爬虫在网页上碰到正则的处理,以及多元性,可以运用正则更加轻松,好了,下面开始上代码 def hander_table(cls, string_content, reg_dict, item, need_reverse=None, need_2list=None, single_line_keys=None,
2020-09-08 17:23:26
198
原创 爬虫 对解析文本的一些使用
爬虫 对解析文本的一些使用## 标题当你在爬取网页文本的时候,可能碰到的格式比较多,这时我们就会多写一些代码,这时我们就可以用到这个方法,比较节省代码 def gen_item_with_reg(cls, string_content, reg_dict, item, need_reverse=None, need_2list=None, si
2020-08-14 14:24:41
316
原创 把图片转化为文本的格式
这个是在工作中看到同事写的一个,感觉很好用,下面让我们来看具体的代码实现''' 百度图片文字识别接口封装'''import base64from .httplib import HEADERS, retry_get, retry_postclass GeneralOcr(object): '''百度云通用文字识别''' __client_id = 'z9ILc5DopWA5rm4NuAou64GY' __client_secret = 'fAHDaKibD
2020-07-20 17:49:31
282
原创 再碰到加密时
这里说的是详情页的加密,这里可以看到在源码中的url当时还以为自己请求错了,然后发现在浏览器中打开发现1249这四个数字变成了一大串字符如果你在详情页源码里点击url的时候他就会显示当时自己也去翻了一些笔记,html里面找,最后好像找到了一个window 什么 传了一个1的参数,具体在哪看的给忘了然后就去解密下面是代码from Crypto.Cipher import AESimport base64def add_to_16(s): while len(s) % 16 != 0:
2020-07-13 17:26:18
165
原创 当写爬虫遇到表格的时候
这里时遇到的页面的表格这一类型的都可以的,不多说下面我们引入pandas```python在这里插入代码片import pandas as pda = []try: #防止一个文本中是一个大的table标签在内,这样去循环tr的标签,更加准确的拿到数据 for i in range(0, 20): df = pd.read_html(url, header=0, skiprows=i) for i in df: #这里是把里面的数据转化
2020-07-08 16:40:39
240
原创 爬虫遇到payload字典参数的时候
当直接看到的时候以为直接传入参数就可以了,但是再用scrapy的时候一直在报404最后查看源码发现在JsonRequest里面传入的是data,当时自己传入了body这里他是不接受body的最后用了Request请求里面传入的body=json.dumps(data)在这里传入的json数据,这样也是可以的,写的不好多多谅解...
2020-07-08 16:27:52
369
原创 爬虫遇到传参加密时
# 翻页加密import base64from Crypto.Cipher import AESfrom urllib import parseimport requests#传入urldef decode_base64(url_): for p in range(1, 198): data = str(p) # 待加密数据 password = '1593574560efawqr' # 16,24,32位长的密码(密钥) if is
2020-06-17 18:02:47
419
原创 python3中导入cookielib失败
在python3中已经换成了http.cookiejar,urllib换成了 urllib.request 如下:import urllib.requestimport http.cookiejarcookie = http.cookiejar.CookieJar()opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cookie))response = opener.open(‘http://www.zh
2020-05-11 11:39:05
743
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人