![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
风启新尘
努力生活,坚持不懈
展开
-
搭建本地node.js---爬虫
搭建本地node.js---爬虫。原创 2022-11-16 17:19:09 · 182 阅读 · 1 评论 -
selenium免密登录
【代码】selenium免密登录。原创 2022-10-25 11:57:31 · 561 阅读 · 0 评论 -
sql建表语句
【代码】sql建表语句。原创 2022-10-11 09:57:51 · 294 阅读 · 0 评论 -
破解某app参数des+md5加密
frida+hook原创 2022-08-24 00:50:55 · 793 阅读 · 0 评论 -
module ‘frida‘ has no attribute ‘get_remote_device‘
module 'frida' has no attribute 'get_remote_device'原创 2022-08-18 14:46:01 · 969 阅读 · 4 评论 -
安装Frida工具
安装的frida版本原创 2022-08-18 14:36:00 · 1236 阅读 · 2 评论 -
mitmproxy使用
第一部分https://blog.csdn.net/weixin_49265805/article/details/125001139mitmproxy -p 8888 启动1,删选,按f键盘,过滤不是post的数据在按f删除,刚才写的,即可退出按i键,断点,按e可根据自己的需求,修改数据python交互现在pycharm建立文件,编写代码。from mitmproxy import ctxdef request(flow): ctx.log(str(flow原创 2022-05-31 12:28:18 · 354 阅读 · 0 评论 -
docker+splash安装使用
记录一下教程没问题,已经照着安装成功https://www.jb51.net/article/219166.htm原创 2022-05-31 12:21:08 · 2262 阅读 · 0 评论 -
mitmproxy安装和使用
安装教程,参考这个两个教程https://blog.csdn.net/agrapea/article/details/124660959?https://blog.csdn.net/liujingliuxingjiang/article/details/121633927?switchyomega的使用插件下载安装点击选项随便起名,然后创建输入ip地址和端口号,点击应用先启动mitmproxy ,启动之后,开启刚才设置的代理。可以抓包了...原创 2022-05-27 11:53:50 · 786 阅读 · 2 评论 -
linux安装最新python版本
第一步,先别卸载自带的2.7版本然后按照下面教程来就行,已测试,根据教程安装成功。https://blog.csdn.net/weixin_44621343/article/details/114707923?需要注意的是,在下载依赖包时,遇到下图问题用kill -s 9把pid旁边的进程杀了就行。因为yum被其他进程占用,所以无法下载。...原创 2022-05-24 20:44:50 · 472 阅读 · 0 评论 -
python异步爬虫
# coding:utf-8# __auth__ = "maiz"import osimport reimport randomimport asyncioimport aiofilesimport aiohttpfrom datetime import datetimefrom lxml import etreeclass Spider(object): headers = { 'User-Agent': 'Mozilla/5.0 (Win原创 2022-05-03 16:36:18 · 2580 阅读 · 0 评论 -
爬虫hook之cookies
(function () { 'use strict'; var cookieTemp = ""; Object.defineProperty(document, 'cookie', { set: function (val) { console.log('Hook捕获到cookie设置->', val); if (val.indexOf('X_HTTP_TOKEN') != -1) {原创 2022-03-16 16:08:24 · 3545 阅读 · 0 评论 -
crypto-js的调用和解密/加密
下载crypto-js包npm install -g crypto-js调用包const crypto = require("crypto-js");console.log(crypto);如果是出现这个错误,是路径的问题给它加个路径const crypto = require("C:/Users/Administrator/jss/node_modules/crypto-js");console.log(crypto)输出正确结果,使用这个包,MD5加密一下12345。C原创 2022-03-15 11:01:30 · 1622 阅读 · 0 评论 -
Python写入数据到CSV文件
import csvlat=["始终没明白游戏起到的正向作用和价值是什么","建议关闭游戏大人孩子都不玩"]f = open('data.csv', 'w', encoding='utf-8', newline="")# 2.基于文件对象构建csv写入对象csv_write = csv.writer(f)# 3.构建列表头csv_write.writerow(['title'])# 4.写入csv文件for data in lat: csv_write.writerow原创 2022-02-14 19:00:11 · 4751 阅读 · 1 评论 -
Scrapy处理302
def start_requests(self): for i in self.start_urls: yield Request(i, meta={ 'dont_redirect': True, 'handle_httpstatus_list': [302] }, callback=self.parse) # 'dont_redirect': True是禁止重定向# Req原创 2022-01-11 16:52:28 · 510 阅读 · 0 评论 -
爬虫调试js报错ASN1 is not defined 问题
当报这个错时在js代码开头定义一下这个var window = global;有帮助就给我点个赞原创 2021-12-27 11:01:18 · 1822 阅读 · 6 评论 -
爬虫中文乱码
import requestsfrom lxml import etreeimport chardeturl = "http://www.ceh.com.cn/syzx/index.shtml"headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36", "Co原创 2021-12-17 10:35:34 · 216 阅读 · 0 评论 -
Python安装word2vec
一Python 安装 WORD2VEC做训练时,直接可以pip安装。‘pip install gensim调用时from gensim.models import word2vec需要注意点,图片粘贴不上,呃呃呃。model = word2vec.Word2Vec(sentences, size=100, window=10)当size 报错时,可修改如下model = word2vec.Word2Vec(sentences, vector_size=100, window=1原创 2021-11-24 10:17:43 · 2940 阅读 · 0 评论 -
python的while不断加一
sum = 1while sum <= 13: sum += 1 print(sum)原创 2021-09-19 19:05:23 · 546 阅读 · 0 评论 -
猿人学第一题
我当个人笔记的。就不写过程了import requestsimport refrom lxml import etreeimport execjsimport requestsimport timework=int(time.time()*1000)with open('yuanrenxue.js', 'r', encoding='utf-8') as f: jscode = f.read()context1 = execjs.compile(jscode)params=co原创 2021-09-14 15:41:52 · 95 阅读 · 0 评论 -
selenium无头浏览爬取搜狐新闻
个人笔记import requestsimport refrom lxml import etreefrom selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsdef hebej(): url="http://www.hebei.net.cn/web/main/jjjxx_jyzf/2c940d846564b37b017a1cb158c058f2.htm" headers原创 2021-09-06 16:48:41 · 203 阅读 · 0 评论 -
scrapy携带参数post爬取
个人笔记class GjcxGgwSpider(scrapy.Spider): name = 'gjcx_ggw' start_urls = ['http://sc.ndrc.gov.cn//policy/advancedQuery?'] def get_form_data(self, page): return { 'pageNum':f"{page}", 'pageSize'原创 2021-09-03 13:50:08 · 527 阅读 · 0 评论 -
中文乱码处理
个人笔记html_temp=requests.get(url=url,headers=headers)html_temp .encoding = html_temp .apparent_encodingprint(html_temp.text)记住·,先转码,后txt原链接添加链接描述原创 2021-09-01 10:33:03 · 72 阅读 · 0 评论 -
python读取和解压zip文件
读取`import zipfilez = zipfile.ZipFile("E://MIS//MIS//API_NY.GDP.PCAP.KD_DS2_zh_csv_v2_2262867.zip", 'r' ) # 这里的第二个参数用r表示是读取zip文件,w是创建一个zip文件for f in z.namelist(): print(f)解压import zipfiletry: with zipfile.ZipFile("E://MIS//MIS//API_NY.GDP.PC原创 2021-05-19 14:17:36 · 766 阅读 · 0 评论 -
爬虫根据标题爬去数据
个人笔记 while k < 10: params['page'] = k enum_url = enum_base + '?' + urlencode(params) headers['Referer'] = enum_url content = get(enum_url, headers) html = etree.HTML(content) href_list = html.xpath('/原创 2021-04-13 08:41:37 · 121 阅读 · 2 评论 -
保存html文件
url = f'https://www.londonstockexchange.com/live-markets/market-data-dashboard/price-explorer?categories=ETFS&subcategories=15&page={page}' headers[ 'path'] = f'/live-markets/market-data-dashboard/price-explorer?categories=ETF..原创 2021-04-12 17:30:42 · 418 阅读 · 0 评论 -
读取本地html文件进行清洗
import os import re path = "C:\dyta\Resource_File\机器学习实战教程" #文件夹目录 files= os.listdir(path) #得到文件夹下的所有文件名称 files.sort()#排序 for file in files: #遍历文件夹 print(file) print('加') htmlf=open('C:\\dyta\\Resource_File\\机器学习实战教程\\{}'.format(file),'原创 2021-04-08 11:26:33 · 164 阅读 · 0 评论 -
python那些好用的方法
startsWith() 方法用于检测字符串是否以指定的前缀开始。参数prefix – 前缀。toffset – 字符串中开始查找的位置。txt = "Hello, welcome to my world."x = txt.startswith("Hello")print(x)定义和用法如果字符串以指定的值开头,则 startswith() 方法返回 True,否则返回 False。教学:https://www.w3school.com.cn/python/ref_string_s原创 2021-04-08 09:43:06 · 64 阅读 · 0 评论 -
html文件数据清洗
一个HTML文件import rehtmlf=open(r"C:\Program Files\feiq\Recv Files\abc.html",'r',encoding="utf-8")#读取html文件htmlcont=htmlf.read()htmlf.close()name=re.findall(r"<article.*>",htmlcont,re.S)names=name[0].replace('\n\t\t\t\t', '')print(names)多个HTML原创 2021-03-18 09:36:50 · 955 阅读 · 1 评论 -
selenium自动化爬虫-----无头爬取
无头·driver = webdriver.PhantomJS(executable_path="E:/psg/phantomjs-2.1.1-windows/phantomjs-2.1.1-windows/bin/phantomjs")driver.implicitly_wait(20)driver.get('https://wipolex.wipo.int/zh/legislation/profile/RU')time.sleep(5)html = driver.page_source#解析网原创 2021-03-15 15:57:55 · 308 阅读 · 0 评论 -
python情感分析
参考网站 https://www.cnblogs.com/zhuminghui/p/10953717.html安装pip install snownlp主要用法复制代码导入SnowNLP库from snownlp import SnowNLP需要操作的句子# 导入SnowNLP库from snownlp import SnowNLP# 需要操作的句子text = '你站在桥上看风景,看风景的人在楼上看你。明月装饰了你的窗子,你装饰了别人的梦's = SnowNLP(text)原创 2021-03-02 15:21:14 · 231 阅读 · 5 评论 -
多线程
import time#导入线程池模块from multiprocessing.dummy import Poolkia=time.time()def get_lsd(str): print('正在下载:',str) time.sleep(2) print('下载成功:', str)ls=['ad','ss','ww',]#实例化一个线程池对象pool=Pool(4)pool.map(get_lsd,ls)f=time.time()print(f-kia)poo原创 2021-02-17 16:31:32 · 113 阅读 · 3 评论 -
steam账号登陆练习
小白的成长历程------------steam账号登陆练习个人笔记首先随机输出账号密码进行抓包此时出现了两个包,现在就是难点,如何找到两个包之间的对应关系,并理清楚思路,有了思路,才能有地方下手。第一个包所带的参数是时间戳和账号第二个,账户密码都带了,密码还加密了。此时虽然还是不知道具体流程,但既然密码加密了,我们先找找密码在js中的形成过程,看是否能获得更多的线索。1,2是密码和账户,3是密码被加密了。通过上三张的图,我们发现,js中的这两个参数,其实就是第一个包的数据,也原创 2021-02-10 12:56:18 · 1904 阅读 · 0 评论 -
base64加密解密
记录小白的成长---------------个人笔记from base64 import b64decodeimport base64lis=[]for i in range(1,6): m='yuanrenxue'+"{}".format(i) m = base64.b64encode(m.encode('utf-8'))#base64加密 m = m.decode('utf-8') print(m) lis.append(m)# base64解密for原创 2021-02-08 15:49:06 · 194183 阅读 · 0 评论 -
猿人学12题--------入门级js加密
首先找到加密参数但因为m太多不好搜索,所以我就试试page全局搜索,得出。通过断点调试找到后,发现了一个关键参数btoa,js我也不懂,所以就百度了既然说是base64,那我们就把关键参数复制到在线解密网站试试接下来一切就明白了,带用data,发现没反应,一切都在他的url里面。我功底不行,代码我找了个大佬的,看着美观import base64import requestsimport timesum = 0for i in range(5): time.sleep(原创 2021-02-01 11:56:48 · 375 阅读 · 0 评论 -
scrapy爬取图片
个人笔记有不对的地方请指出import scrapyfrom..items import ImgscrItemclass ImgSpider(scrapy.Spider): name = 'doutu' allowed_domains = ['doutula.com'] start_urls = ['https://www.doutula.com/photo/list/?'] def parse(self, response,**kwargs):原创 2021-01-30 12:17:27 · 964 阅读 · 0 评论 -
SCRAPY基本用法
个人笔记添加随机UA和随机代理·爬取主页和详情页。import scrapyfrom..items import QiushiItemclass EngSpider(scrapy.Spider): name = 'eng' allowed_domains = ['qiushibaike.com'] start_urls = ['https://www.qiushibaike.com/text/'] def parse_tit(self,response):原创 2021-01-30 00:20:50 · 108 阅读 · 0 评论 -
搭建scrapy框架
第一步,本地创建文件并下载。(注意pip改国内的,不会自行百度,我没时间)第二步,测试是否下载成功第三步,检测正确性出现这样的,说名没问题。第四步,通过指令创建文件scrapy startproject qd_english #qd_english是文件名创建成功第五步,关闭爬虫协议第六步,创建爬取scrapy genspider english chinadaily.com.cn练习网站 http://language.chinadaily.com.cn/thelat原创 2020-09-20 18:58:21 · 487 阅读 · 0 评论 -
爬虫百度翻译JS
1,获取响应体进行对比,获取加密js。全局搜索断点调试,找到形成F的函数点击{。他的对应的会有影阴把JS文件复制到本地,并创建JS文件JS代码,需要在专业版PyCharm ,并安装nodejs function n(r, o) { for (var t = 0; t < o.length - 2; t += 3) { var a = o.charAt(t + 2); a = a >= "a" ? a原创 2021-01-26 13:04:32 · 320 阅读 · 0 评论 -
爬虫有道词典JS-------Md5
首先,获取相应数据,做对比。通过对比我们发现就这三个不同,全局搜索不同的三个。同过查找发现是MD5加密。此时我们用python实现同样的功能就行。通过本地输出,测的r是时间戳console.log()i 是时间戳后面加了个随机数,1到9,不包括10.sign是左右两端字符串加上中间的+时间戳+翻译的词,然后用md5实现代码import requestsimport timeimport randomfrom hashlib import md5headers={ "原创 2021-01-22 21:38:51 · 188 阅读 · 0 评论