request
文章平均质量分 60
小黑班♪(・ω・)ノ
这个作者很懒,什么都没留下…
展开
-
爬虫测试
任务:爬取药监局网站中前2页每家企业的详情数据 1.通过抓包工具查看当前信息,首页信息是通过ajax动态请求,没有找到各详情页的url 2.查看动态加载数据的同一携带参数,不同详情页的URL一致,返回json串,对比发现详情页URL与id拼接即可获得对应企业详情页信息 4.捕获 获取前2页企业信息,从json串中封装企业列表信息,批量提取企业id参数 使用详情页url请求数据,将详情页和id参数拼接获得指定页码的企业详情页信息 保存 #首页Url url = 'http://scxk.nmpa原创 2021-04-09 18:24:50 · 98 阅读 · 0 评论 -
初识爬虫
爬虫是什么 浏览器是纯天然最原始的1个爬虫工具。爬虫是指通过编写程序,让其模拟浏览器上网,然后在互联网中抓取数据的过程。 爬虫的分类 通用爬虫:爬取一整张页面的全部源码数据 聚焦爬虫:爬取一张页面中的局部源码数据,聚焦是在通用的基础之上 增量式爬虫:用来监测网站数据更新的情况,以便爬取到网站最新更新出来的数据 分布式爬虫:爬虫增速,提高效率 协议与机制 反爬机制:作用于门户网站,为防止爬虫能够轻易获取数据,制定相关机制或措施阻止爬虫程序爬取其数据 反反爬机制:作用于爬虫程序,制定相关策略破解反爬机制,从原创 2021-04-08 19:17:08 · 145 阅读 · 0 评论