爬虫
文章平均质量分 63
主要为了学习爬虫和脚本编写,方便ctf做题的,学习的视频地址https://www.bilibili.com/video/BV1Yh411o7Sz?p=1&spm_id_from=pageDriver
Lum1n0us
追逐梦想
展开
-
异步爬虫的补充学习
文章目录概述多线程多进程概述在之前学习爬虫过程中,视频里讲的不是很完整,导致我学的很懵逼,现在有新的爬虫视频了,所以去重新学习下。多线程进程是资源单位,启动某一个程序时默认会有一个进程,每一个进程里至少有一个线程;线程是执行单位。先看以下的例子:def func(): for i in range(1000): print('func', i)if __name__ == '__main__': func() for i in range(1000原创 2021-05-02 17:15:01 · 115 阅读 · 0 评论 -
selenium模块
文章目录selenium模块的定义使用selenium模块的优点selenium模块使用流程selenium模块的定义基于浏览器自动化的一个模块使用selenium模块的优点便捷的获取网站加载的动态数据便捷实现模拟登陆selenium模块使用流程环境安装:pip install selenium下载浏览器的驱动程序:...原创 2021-03-11 23:04:14 · 880 阅读 · 0 评论 -
requests进阶(cookie、防盗链、代理)
文章目录打码简介使用打码平台识别网页验证码的流程打码简介反爬机制:验证码——识别验证码中的数据,用于模拟登录操作识别验证码的操作:第三方自动识别云打码使用流程:下载python对应的api接口后,修改其中用户的信息,换成自己的。使用打码平台识别网页验证码的流程将验证码图片进行本地下载调用平台提供的示例代码进行图片的数据识别...原创 2021-03-07 16:54:54 · 559 阅读 · 1 评论 -
数据解析
文章目录数据解析分类数据解析原理正则匹配爬取糗事百科图片数据解析分类正则bs4xpath(***)数据解析原理解析的局部文本内容都会在标签之间或者标签对应属性中进行存储进行指定标签定位标签或标签对应属性中存储的数据值进行提取正则匹配先学习正则表达式import re// \w 匹配数字、字母、下划线print(re.findall('\w','abc123_*()-=')) # findall是从左到右匹配字符串// ['a', 'b', 'c', '1', '2'原创 2021-02-27 14:39:58 · 447 阅读 · 1 评论 -
动态加载页面信息的爬取
药监总局信息药监总局url:http://scxk.nmpa.gov.cn:81/xk/想要爬取到页面上每一个公司的具体信息,先信息搜集可以看到,get请求到的数据包中是没有这些具体信息的,那些信息很可能是动态加载出来的,并不能直接从url中请求到,可能是由Ajax对应的请求请求到。那么就查找Ajax的包果然发现了json数据,格式化校验后发现公司的信息又发现每家公司都会有一个id,这个id对应的就是自己公司的信息,那么id就可以从对应Ajax请求到的json串中获取,然后将域名和id拼原创 2021-02-25 17:22:18 · 412 阅读 · 2 评论 -
requests模块实战
文章目录简易网页采集器爬取百度翻译内容豆瓣电影信息爬取肯德基餐厅地址爬取简易网页采集器主要是爬取搜狗指定词条对应的搜索结果搜索python,将url复制到代码中import requests# UA伪装:门户网站会检测载体的身份信息headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safar原创 2021-02-24 17:25:19 · 200 阅读 · 0 评论 -
requests模块基础
requests模块:python中原生的一款基于网络请求的模块作用:模拟浏览器发送请求如何使用(requests模块的编码流程):指定url发起请求获取相应数据持久化存储安装:pip install requests爬取搜狗首页的数据:import requests# 1.指定urlurl = 'https://www.sogou.com/'# 2.发起请求# get方法会返回一个相应对象response = requests.get(url=url)# 3.获取相原创 2021-02-24 12:19:40 · 87 阅读 · 0 评论 -
http&https协议
http协议:概念:服务器和客户端进行交互的一种形式常用请求头信息:User-Agent:请求载体的身份标识Connection:请求完成后是继续连接还是断开连接常用响应头Content-Type:服务器响应回客户端的数据类型https协议概念:安全的超文本传输协议加密方式对称密钥加密:密文和密钥一起传输,密文被截获能直接被解密。非对称密钥加密:加密者使用解密者发送的公钥加密,解密者用生成的私钥解密,由于私钥没有被泄露,即使截获密文也无法解密。但是发送的公钥可能被挟持和篡改,且效率原创 2021-02-24 10:41:15 · 86 阅读 · 0 评论