独角兽小马-CSDN博客

原创 js逆向网站记录（持续更新）

不带参数请求第一次拿到加密文件 5dm.js cf_v1.jsMD5是标准的 cf_v1轻度混淆很好解决，解析后发现加盐值固定即为返回的s_wb参数加上固定的盐值 MD5加密后即为sk加密参数。

2023-08-25 22:25:31 681

原创 AES加密解密（含python解析工具）

AES加密解密及python实现工具

2022-06-14 16:12:26 1207 1

第四题：样式干扰还是求数值的加和，，，，，鼠标一晃就发现数值全是图片，第一感觉是ocr在线识别吧？？？hhhh开控制台看一下，链接没加密，带上头直接就能得到响应值，yes!!!看一下响应值yes ！！！响应有问题scr 一看就是图片啥！莫得讲的把他都取出来格式化分析一下、有用的参数有keyvalueivimg里的srcclass里的一串数值style里的left值一个个慢慢来先分析长的吧：img里的src有经验的吧data的一堆放浏览器里一打开霍就是图片地址啊、、

2022-05-17 17:13:32 2620

原创猿人学第十五：wasm问题

import requestsimport pywasmimport timeimport mathimport randomdef getM(): t = time.time() t1 = int(t/2) t2 = int(t/2 - math.floor(random.random()*50+1)) vm = pywasm.load("./main.wasm") r = vm.exec("encode", [t1, t2]) return f

2022-05-17 16:39:49 538

原创 Django入门笔记（一）：框架结构及原理解析

1、下载安装2、创建django框架1、下载安装Django框架是使用python语言开发的，因此可以直接使用pip进行安装：pip install django可以指定安装版本我使用的python 3.8 选择的django 3.1.7（推荐最新安装django3.2版本，可长久支持）安装后验证成功：python -m django --version2、创建django框架...

2022-02-16 21:34:49 2282

原创 mysql数据库基础知识笔记

知识点总结建库建表、增删改查约束范式建库建表、增删改查1、建库CREATE DATABASE 数据库名;2、删库drop database <数据库名>;3、进入数据库use 数据库名4、建表CREATE TABLE 表名 (数值);5、增insert into 表名 values （数值）6、删删除数据表：drop table 数据表名删除数据表中数据：delete from 数据库名 where ...7、改UPDATE 表名 SE

2021-10-11 16:47:10 388

原创 js逆向_百度翻译

在上一篇爬取有道翻译的基础上来进行本次百度翻译的破解前面步骤不变，就不在赘述了。直接跳到找fromdata里的sign元素前面分析可以知道变的只有sign和token，token可以直接获取，使用我们重点放在sign同样的先全局查找，在逐个分析，然后内部查找，最后逐步分析到上图所示，打断点运行，发现e就是传入的word，把光标放在L上，点击上面提示的f进行跳转我们把这个函数体直接复制下来，存储到js文件中`，然后用import execjs库对其进行分析，就可以得到sign的值impo

2021-09-19 11:39:10 189

原创 JS逆向_文字加密base64解析

本文借鉴58同城的招聘网站，进行学习，爬取字体加密的部分58同城招聘如图可视，源码中的字体信息都被问号？代替，所以正常爬去的话只会爬取到这些问号。右键页面，选择查看源代码。可以看到在<style>里有一段复杂的代码，其中可以看到base64的字样，便可以猜测这个字体加密就是base64字体加密可以先去了解一下base64加密的原理知道base64加密后，我们即可进行对应的字体映射import requestsimport reimport base64from fo.

2021-09-12 00:06:33 1373

原创 python爬虫_简单js逆向md5解析

本文借鉴有道翻译网站进行学习，借助有道翻译，输入要翻译文字，输出翻译后文字有道翻译进入网址F12进行分析用常用方法在源码中查找不到需要的翻译后单词，点击控制台，进行抓包尝试发现运行一次就有一个人translate的文件产生，点击查看是post请求，不难猜出，有道翻译是在用户输入需翻译文字后，以表单的形式提交给服务器，服务器在回以翻译后的信息，因此，我们需要访问这个表单文件，来获取翻译功能。以表单形式访问，需要headers和data两个信息，headers可直接复制此网址的头文件，data.

2021-09-09 21:19:19 707 1

原创 scrapy对接selenium原理超详细解读！！！！

详解下载器中间件常见方法解读1、from_crawler（）方法二级目录三级目录下载器中间件常见方法解读下载器中间件有什么作用:1:在scheduler（调度器）中调取一个request（请求），发送给Downloader（下载器）之前,我们可以对request（请求）进行修改.2:在Downloader（下载器）返回response（响应）给spider之前,我们可以对response（响应）进行修改.下载器中间件的功能十分强大,修改User-Agent,处理重定向,设置代理,失败重试,设置co

2021-09-03 20:45:00 2476

原创 python 类方法实例方法静态方法作用及区别

实例方法：最普遍的一种方法：直接看栗子：class A(object): def __init__(self, data): self.data = data def out(self): print(self.data)a1 = A('first')a2 = A('second')a1.out()a2.out()结果：fristsecond上诉方法就是实例方法，当调用a1时，初始化将a1传入 A类中的初始化类self，实例a

2021-09-03 11:41:55 204

原创 scrapy通用爬虫crawlspider

在抓取工作时，难免会遇到要爬取的站点量非常大的时候，如某些媒体网站的新闻详情页信息，如果单个抓取，就会出现很多重复的代码，造成不必要的麻烦。因此，我们可以把不同url里的相同抓取规则提取出来，当我们新增一个类似爬虫时就可以直接拿来用了。CrawlScrapy官方文档：http://scrapy.readthedocs.io/en/latest/topics/spiders.html#crawlspiderCrawlSpider是Scrapy提供的一个通用Spider。在Spider里，我们可以指定

2021-07-29 21:28:55 128

原创 Scrapy+Selenium+PhantomJS详解及入门案例（附完整代码）

scrapy处理js动态渲染页面时，一种可以分析ajax请求，找到对应的接口，然后进行抓取另一种就是对接selenium或者是splash模拟浏览器抓取练习为selenium+scrapy+PhantomJS对淘宝商品进行爬取首先要安装phantomjs和scrapy、selenium、pymongo库创建一个spider先写item，确定要爬取数据import scrapyclass ScrapyseleniumproItem(scrapy.Item): # define th

2021-07-25 18:51:21 775 1

原创 scrapy分布式爬虫原理（scrapy_redis）

scrapy分布式爬虫及scrapy_redis分布式原理scrapy——redis实现分布式scrapy_redis源码分布式原理在学习完scrapy基本知识后，大多数爬虫应用了scrapy框架的异步加多线程后，爬取会有显著提升。但还是局限于一台主机运行，爬取的效率始终有限，因此学习分布式爬虫就是将多台主机组合起来，共同完成一个爬取任务，可以进一步提升效率。=分布式实现原理：首先先回顾一个scrapy的架构：scrapy会将生成的request放在队列中，这个队列是有deque实现的本地爬取队

2021-07-21 20:26:07 565

原创 scrapy中间件详解

scrapy中间件：scrapy中间件介绍下载器中间件添加ip代理scrapy中间件介绍==scrapy中间件是scrapy框架的重要组成部分分为两大种类：下载器中间件（DownloaderMiddleware）和爬虫中间件（SpiderMiddleware）图中4、5为下载器中间件图中6、7为爬虫中间件下载器中间件是Scrapy请求/响应处理的钩子框架。这是一个轻，低层次的系统，全球范围内改变斯拉皮的请求和响应。下载器中间件主要功能：1、添加ip代理2、添加cookie3、添

2021-07-18 21:00:17 3712

原创 scrapy爬虫项目实例三（起点图书信息万条数据）

==学习练习起点排行榜的图书信息起点rank官网第一步要先点击各个分榜第二步在每个榜单里点击十四个分栏第三步才是点击每个图书的详情页进行爬取以及翻页操作一共9个分榜14个分栏5页每页二十个数据最后存入csv的数据应为12600条数据==使用scrapy框架来写先创建scrapy startproject qidianProscrapy genspider qidian先写items# Define here the models for your scraped i

2021-07-15 20:19:24 202

原创 Scrapy项目实例及详解（2）

上一篇Scrapy项目实例及详解（1）==2、爬取tencent官网招聘信息，存入json格式Tencent官网tencent招聘官网的json数据先确定要爬取属性items：import scrapyclass TencentItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() RecruitPostName = scrapy.Field

2021-07-14 19:43:42 111

原创 Scrapy项目实例及详解（1）

基础知识请跳转：Scrapy基础详解Scrapy持久化存储==本次实例为菜鸟教程中scrapy入门练习实例抓取传智教育师资简介（http://www.itcast.cn/channel/teacher.shtml#aandroid）网页没有做反爬措施，就不进行网页分享啦==首先创建项目及spider创建项目scrapy startproject itcastPro创建spiderscrapy genspider itcast www.xxx.com先写items文件imp

2021-07-13 20:21:37 932 1

原创 scrapy持久化存储

1、基于终端命令存储1、基于终端的持久化存储：只可以将parse方法里的返回值存储到本地文件中。2、持久化存储的文件类型只可为：json、jsonlines、jl、csv、xml3、操作： scrapy crawl xxx -o filePath4、优缺点：局限性强，只能存储上述的文件类型，但方便简洁。2、基于管道存储1、定义属性在item类中定义相关属性，2、封装对象讲解析到的数据封装存储到item类型的对象中3、提交item对象将item类型的对象提交给管道进行持久化存储上图

2021-06-11 14:32:14 505 3

原创 Python-Scrapy框架入门及基本使用

Scrapy框架Scrapy基础知识1、简介2、五大组件scrapy框架创建1、创建scrapy项目2、简单入门Scrapy基础知识1、简介官网简介：Scrapy 是一个用于抓取网站和提取结构化数据的应用程序框架，可用于各种有用的应用程序，如数据挖掘、信息处理或历史存档简而言之就是一个稳定、高效的爬虫框架，提高爬取效率，大型的爬虫项目都需要用到它。拓展性好，使用Twisted异步网络框架，极大的提升了下载速度。2、五大组件五大核心组件：爬虫(Spider): 解析响应数据, 提取URL,

2021-06-09 16:36:44 590 2

原创 Python协程&asyncio

协程&asyncio什么是协程协程的实现1、greenlet实现协程2、yield实现协程3、asyncio&await实现协程什么是协程1、协程作用协程不是计算机自带的功能，而是人们的一种理念，协程的主要作用就是：当你的程序遇到了阻塞（耗时操作）时，程序在等待当前程序运行时顺便去执行另一程序比如在爬虫的过程中，你爬取别的的视频或图片的时候，初级的程序就是循环遍历，一张一张爬取，而协程操作就会在下载等待第一张图片的同时下载第二张…实现协程异步爬虫协程的实现1、greenlet实现

2021-05-28 17:56:33 99

原创 Python—正则表达式基础详解及re库运用

正则表达式是处理字符串的强大工具，它有自己的特定语法结构，用它进行字符串的检索、替换、匹配验证否会变得非常简单。正则表达式常用匹配规则常用匹配规则模式描述\w匹配字母、数字及下划线\W匹配非字母、数字及下划线字符...

2021-05-19 21:46:00 583 2

原创 Python-Requests爬虫实例

四个requests实例：requests破解百度翻译requests豆瓣电影排行榜requests肯德基地理位置requests许可证信息requests破解百度翻译# -*- coding: utf-8 -*-import requestsimport jsonif __name__ == '__main__': url = 'https://fanyi.baidu.com/basetrans' headers = { 'User-Agent': 'Mozil

2021-05-19 16:46:20 534 1

原创 Python基础知识点大全详解

1.1 列表def getList(): # 1.1 创建列表 list1 = [6, 3, 8, 9, 1, 4, 7] # 1.2 索引访问列表元素 print('第一个元素:{},最后一个元素:{}'.format(list1[0], list1[-1])) # 1.3 修改元素 list1[0] = 1 list1[-1] = 0 print('第一个元素:{},最后一个元素:{}'.format(list1[0], list1[-1

2021-04-26 22:20:01 265 1

原创 Python数据分析实例

###第一步getValue（）爬取链家关于武汉房价信息###第二步setMySQL（）存入数据库###第三步getMySQL（）从数据库中取出数据###第四步setPrice（）绘成有关数据图# -*- coding:utf-8 -*-from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_condi

2021-04-21 17:03:53 219 2

原创 Python中关于数据库的增删改查

import pymysql# 创建数据库spiders和创建表单db = pymysql.connect(host='localhost', user='root', password='123456', port=3306)cursor = db.cursor()cursor.execute('SELECT VERSION()')cursor.execute('CREATE DATABASE spiders DEFAULT CHARACTER SET utf8')db.close()db

2021-04-15 15:21:22 161 1

原创 Pandas数据分析常用函数

pandas常用数据类型pandas扩展库是基于扩展库numpy和matplotlib的数据分析模块，是一个开源的项目，提供了大量的标准数据类型，具有高效操作大型数据的功能。使用pip install pandas在命令提示符环境下安装扩展库pandas。常用数据类型：1.Series，带标签的一维数组2.DataFrame，带标签且大小可变的二维表格结构Series简介与常用操作1.series简介Series是pandas提供的一维数组，有索引和值两部分组成，是一个类似于字典的结构。值的

2021-04-13 19:53:01 485 1

原创 selenium动态渲染页面爬取（1）（基于书籍《Python3网络爬虫开发实战学习》）

#Selenium 的使用##1、基本使用以Chrome为例，先安装ChromeDriver。from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webd

2021-04-11 19:55:15 116 2

weixin_44457673的博客