某得感情-CSDN博客

原创 JS之原型链

解答：Function是一个函数，所有函数的_proto_最终指向都是Function.Prototype（函数与原型对象的联系）,而Function.Prototype._proto_是指向Object.Prototype最终指向null。_proto_是指向上一级的原型对象，Prototype是获得构造函数的原型链对象。简单来说，_proto_类似于通过原型链找到继承中的父类。所有函数的实例化对象的构造器指向Function()原型链，顾名思义是一种类似链状结构的指向。

2024-06-06 22:16:03 200

原创 python基础之列表，元组，字典，集合

1.1append（数据）在末尾添加数据，可以添加列表1.2extend（数据）在末尾添加数据，但是必须序列化数据，1.3insert（位置，数据）在指定位置插入数据append和extend的区别：1.append添加列表时是整个塞进去，extend是逐一放入2.extend只能添加序列化数据。

2024-03-31 20:34:27 373 1

原创爬虫之scrapy+seleniumm

那么问题来了，selemium放在哪里比较好呢，答案就是中间件啦，下载器中间件中的spider_request中当请求过来的时候是需要selenium就返回response对象，不需要就返回None让他继续执行，有一点需要注意，有很多中间件在selinium中默认是打开的，selenium可是不需要这玩意的，已知默认中间件的权重最大是100，我们需要把selenium中间件设置成

2024-03-28 00:20:37 1352

原创爬虫之scrapy中间件

scrapy主要有两种----中间件爬虫中间件和下载器中间件，这里主要介绍的是下载器中间件DownloaderMiddleware，下载器中间件相当于是在引擎与下载器中间的拦截器，可以在下载器发送请求之前对请求的参数进行修改，比如ip代理，userAgent，都可以在DownloaderMiddleware中完成添加。

2024-03-27 17:29:24 1359

原创爬虫之scrapy登录

这种写法是用scrapy中的FormRequest请求，这种请求默认就是post请求，把data以字典的格式放入formdata中就可以了。scrapy登录有两种方式，一个是直接加cookie，一个是走一遍登录的流程，常用的肯定是走登录流程了。这种写法中的body与平时把data写进字典中不同，需要拼接，不太方便，所以我常用第二种。走登录流程时，一般都是post请求，在scrapy中post请求有两种方式，第一种。登陆流程都知道，只是记录一下scrapy中好用的post请求方式。

2024-03-27 13:29:35 313

原创爬虫之scrapy数据库存储

在记录数据库存储数据之前，先记录一下items.py的作用，itmes.py是scrapy提供的一种数据封装的工具，与字典类似，都是有键和值构成，其中key需要再itmes.py中提前定义。scrapy此举主要是为了避免传递字典时出现key值错误（我瞎想的）。items中key的定义scrapy有模板，直接照着写就行。在使用时需要先实例化在spider中使用时需要导入items，这里有个坑，有很多人会遇到导进入了但是还是报错，这是pycharm导包的问题，这样写就没问题了。接下来就该进入正题了。

2024-03-26 19:06:04 774

原创爬虫之初识scrapy

这个爬虫在parse中对数据进行提取，并以字典的形式通过yield传给管道，item就是管道接收的数据，管道接收到数据后输入数据，然后return数据，而且是必须return，因为下一个管道要用。scrapy startproject 项目名这样就创建了一个爬虫项目了在这个项目里面除了有项目外还有一个scrapy.cfg，这是项目的配置文件。在这个爬虫文件中 alowed_domains是爬虫能够爬取的域名，start_urls是爬虫的起始url，可以是多个。

2024-03-25 23:33:17 859

原创爬虫之混淆

混淆的开头一般都是一个列表，一个函数，把经过混淆的名称带入这个函数可以得到原来的名称。利用这一点可以反混淆。混淆是爬虫中经常遇到的，在这里记录一种遇到混淆可以用的方法。3.js文件part.js是那个混淆的列表和可以还原的函数。1js文件f2是读取的需要反混淆的js文件。在这段代码中使用时需要修改的。

2024-03-24 21:59:07 722 1

原创爬虫之mitmproxy

mitmproxy是一个代理工具，我对它主要用在：逆向时替换请求中的参数。

2024-03-24 21:42:59 336 1

原创爬虫之selenium

这两天学了一下selenium的基础操作，在这里记录一下。

2024-03-24 20:44:04 1457 1

原创 JavaScript案例一：跑马灯

在整个代码中我犯了一个错误，没有将获取到的文字放进函数，因为觉得每次都要读取太费了，没有想到这样会无法更新，html是个弱语言，他一般不会报错。1.从html中获取文本：通过document.getElementById('id值')可以定位到一个tag。3.切片函数：text.substring(其实数，结束数) //结束的那个数是娶不到的呜呜呜。2.字符串可以通过索引直接获取，也可以通过charAt（'索引'）获取。4.BOM中的定时函数setInterval(函数名，间隔毫秒数)

2024-03-14 23:08:53 206

原创爬虫之pyexecjs

pyexecjs可以借助node.js在pycharm中运行js代码，如果遇到特别难的js代码，可以用pyexecjs直接运行js得到数据，但是效率肯定是不如破解的。

2024-03-14 21:29:28 497

原创爬虫之ddddocr的使用

ddddocr是光学文字识别技术，通过机器学习，人工智障，对文字进行识别，可以用来识别验证码，虽然成功率不如打码网站高，但是胜在开源免费啊，简单的记录一下吧。这是最简单的一种使用方式，一般进阶一点的还要进行极值，灰度处理，这样做成功率更高，还是明天上班再看。

2024-03-14 21:17:20 583

原创爬虫基础二----数据解析

1.3 re.search('表达式','被查找的数据')：这个返回匹配到的第一个数据，并且是以对象的形式，需要用group取出value值。1.4 re.match('表达式','被查找的数据')：此方法只会从头开始匹配，如果匹配到了则返回值，匹配不到返回none。1.2 re.finditer('表达式','被查找的数据')：查到所有匹配到的数据以迭代器的方式输出，需要循环取出。1.1 re.findall('表达式','被查找的数据')：查到所有匹配到的数据以列表的方式输出。

2024-03-12 23:57:19 26

原创七、指针数组

指针数组:用指针的方式引用数组需要注意：数组名是数组首元素的地址，即a=&a[0];所以int *p;p=&a[0]与p=a等价；指针的运算因为指针就是地址所以指针的乘除是没有意义的；指针的加减就是地址的加减；并且，指针p+1并不是地址+1；而是指向数组中下一个元素的地址；例如：在整形数组中每个元素占4个字节，p+1就等于地址+4。在同一数组中，两个元素的地址之间可以相减，...

2021-11-18 23:53:18 697

原创四.关联规则

关联规则：物品与物品之间的关联关系；例如：一个人购买A，那么他购买B的概率多大支持度：是指一件或多件物品出现的次数在总次数中所占的比例；置信度：在一件事情发生的情况下另一件事情发生的概率；提升度：（a->b）=置信度（a->b）/支持度（b）python代码实现简单的关联规则：from efficient_apriori import aprioridata = [ ["牛奶","面包","...

2021-11-17 18:20:30 601 1

weixin_53984419的博客