自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 python基础之列表,元组,字典,集合

1.1append(数据)在末尾添加数据,可以添加列表1.2extend(数据)在末尾添加数据,但是必须序列化数据,1.3insert(位置,数据)在指定位置插入数据append和extend的区别:1.append添加列表时是整个塞进去,extend是逐一放入2.extend只能添加序列化数据。

2024-03-31 20:34:27 360 1

原创 爬虫之scrapy+seleniumm

那么问题来了,selemium放在哪里比较好呢,答案就是中间件啦,下载器中间件中的spider_request中当请求过来的时候是需要selenium就返回response对象,不需要就返回None让他继续执行,有一点需要注意,有很多中间件在selinium中默认是打开的,selenium可是不需要这玩意的,已知默认中间件的权重最大是100,我们需要把selenium中间件设置成

2024-03-28 00:20:37 1277

原创 爬虫之scrapy中间件

scrapy主要有两种----中间件爬虫中间件和下载器中间件,这里主要介绍的是下载器中间件DownloaderMiddleware,下载器中间件相当于是在引擎与下载器中间的拦截器,可以在下载器发送请求之前对请求的参数进行修改,比如ip代理,userAgent,都可以在DownloaderMiddleware中完成添加。

2024-03-27 17:29:24 1346

原创 爬虫之scrapy登录

这种写法是用scrapy中的FormRequest请求,这种请求默认就是post请求,把data以字典的格式放入formdata中就可以了。scrapy登录有两种方式,一个是直接加cookie,一个是走一遍登录的流程,常用的肯定是走登录流程了。这种写法中的body与平时把data写进字典中不同,需要拼接,不太方便,所以我常用第二种。走登录流程时,一般都是post请求,在scrapy中post请求有两种方式,第一种。登陆流程都知道,只是记录一下scrapy中好用的post请求方式。

2024-03-27 13:29:35 228

原创 爬虫之scrapy数据库存储

在记录数据库存储数据之前,先记录一下items.py的作用,itmes.py是scrapy提供的一种数据封装的工具,与字典类似,都是有键和值构成,其中key需要再itmes.py中提前定义。scrapy此举主要是为了避免传递字典时出现key值错误(我瞎想的)。items中key的定义scrapy有模板,直接照着写就行。在使用时需要先实例化在spider中使用时需要导入items,这里有个坑,有很多人会遇到导进入了但是还是报错,这是pycharm导包的问题,这样写就没问题了。接下来就该进入正题了。

2024-03-26 19:06:04 764

原创 爬虫之初识scrapy

这个爬虫在parse中对数据进行提取,并以字典的形式通过yield传给管道,item就是管道接收的数据,管道接收到数据后输入数据,然后return数据,而且是必须return,因为下一个管道要用。scrapy startproject 项目名 这样就创建了一个爬虫项目了在这个项目里面除了有项目外还有一个scrapy.cfg,这是项目的配置文件。在这个爬虫文件中 alowed_domains是爬虫能够爬取的域名,start_urls是爬虫的起始url,可以是多个。

2024-03-25 23:33:17 843

原创 爬虫之混淆

混淆的开头一般都是一个列表,一个函数,把经过混淆的名称带入这个函数可以得到原来的名称。利用这一点可以反混淆。混淆是爬虫中经常遇到的,在这里记录一种遇到混淆可以用的方法。3.js文件part.js是那个混淆的列表和可以还原的函数。1js文件f2是读取的需要反混淆的js文件。在这段代码中使用时需要修改的。

2024-03-24 21:59:07 705 1

原创 爬虫之mitmproxy

mitmproxy是一个代理工具,我对它主要用在:逆向时替换请求中的参数。

2024-03-24 21:42:59 292 1

原创 爬虫之selenium

这两天学了一下selenium的基础操作,在这里记录一下。

2024-03-24 20:44:04 1450 1

原创 JavaScript案例一:跑马灯

在整个代码中我犯了一个错误,没有将获取到的文字放进函数,因为觉得每次都要读取太费了,没有想到这样会无法更新,html是个弱语言,他一般不会报错。1.从html中获取文本:通过document.getElementById('id值')可以定位到一个tag。3.切片函数:text.substring(其实数,结束数) //结束的那个数是娶不到的呜呜呜。2.字符串可以通过索引直接获取,也可以通过charAt('索引')获取。4.BOM中的定时函数setInterval(函数名,间隔毫秒数)

2024-03-14 23:08:53 199

原创 爬虫之pyexecjs

pyexecjs可以借助node.js在pycharm中运行js代码,如果遇到特别难的js代码,可以用pyexecjs直接运行js得到数据,但是效率肯定是不如破解的。

2024-03-14 21:29:28 495

原创 爬虫之ddddocr的使用

ddddocr是光学文字识别技术,通过机器学习,人工智障,对文字进行识别,可以用来识别验证码,虽然成功率不如打码网站高,但是胜在开源免费啊,简单的记录一下吧。这是最简单的一种使用方式,一般进阶一点的还要进行极值,灰度处理,这样做成功率更高,还是明天上班再看。

2024-03-14 21:17:20 547

原创 爬虫基础二----数据解析

1.3 re.search('表达式','被查找的数据'):这个返回匹配到的第一个数据,并且是以对象的形式,需要用group取出value值。1.4 re.match('表达式','被查找的数据'):此方法只会从头开始匹配,如果匹配到了则返回值,匹配不到返回none。1.2 re.finditer('表达式','被查找的数据'):查到所有匹配到的数据以迭代器的方式输出,需要循环取出。1.1 re.findall('表达式','被查找的数据'):查到所有匹配到的数据以列表的方式输出。

2024-03-12 23:57:19 13

原创 七、指针数组

指针数组:用指针的方式引用数组需要注意:数组名是数组首元素的地址,即a=&a[0];所以int *p;p=&a[0]与p=a等价;指针的运算 因为指针就是地址所以指针的乘除是没有意义的;指针的加减就是地址的加减;并且,指针p+1并不是地址+1;而是指向数组中下一个元素的地址;例如:在整形数组中每个元素占4个字节,p+1就等于地址+4。 在同一数组中,两个元素的地址之间可以相减,...

2021-11-18 23:53:18 687

原创 四.关联规则

关联规则:物品与物品之间的关联关系;例如:一个人购买A,那么他购买B的概率多大 支持度:是指一件或多件物品出现的次数在总次数中所占的比例; 置信度:在一件事情发生的情况下另一件事情发生的概率; 提升度:(a->b)=置信度(a->b)/支持度(b)python代码实现简单的关联规则:from efficient_apriori import aprioridata = [ ["牛奶","面包","...

2021-11-17 18:20:30 589 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除