爬虫
文章平均质量分 91
sgxmr
这个作者很懒,什么都没留下…
展开
-
数据提取(json)
文章目录数据提取概念数据分类JSON数据提取json模块json模块使用实例:获取豆瓣热映电影信息实现爬虫四部曲:使用来封装上面的代码实现分页效果方式1: 根据URL规律找生成下一页URL,当返回的数据条数小于请求的数据条数的时候退出方式2:数据提取概念什么是数据提取? 简单的来说,数据提取就是从响应中获取我们想要的数据的过程数据分类非结构化数据, 如html 处理方法: 正则表达式/xpathhtml数据结构化数据, 如json/xml - 处理方法原创 2021-03-30 10:44:18 · 3414 阅读 · 0 评论 -
urllib的学习
文章目录urllib2库的基本使用urlopen 请求数据Request 对象Request对象添加更多参数User-AgentGET和POST请求urllib2介绍除了requests模块可以抓取数据之外, python2中urllib2模块也可以操作,只是操作方法略有不同!在 python3 中,urllib2 被改为urllib.requesturllib2 是 Python2.7 自带的模块(不需要下载,导入即可使用)urllib2 官方文档:https://docs.python.o原创 2021-03-08 14:23:29 · 47 阅读 · 1 评论 -
request的使用2
文章目录1.使用requests模块访问登录后才能访问的资源cookie与session区别如何获取服务端登录后的资源(三种方式)1.在请求头上指定cookie信息2.发送请求的时候单独指定cookie信息3.使用requests模块中的session对象,带上cookie利弊与抉择cookie使用建议2.如何找POST请求的URL和要发送的数据方式1: 通过表单找出POS的URL方式2 抓包,寻找POST的url地址js逆向-定位和调试js调试js3.requests模块发送请求的小技巧reqeusts.原创 2021-03-03 19:28:15 · 542 阅读 · 0 评论 -
request的使用1
文章目录概述作用:发送网络请求,返回响应数据request的基本使用request的常用属性:response.text 和response.content的区别实例1:爬取百度首页解决乱码问题练习2:下载图片requests带有请求头使用requests模块发送带有参数的请求练习3 如何模拟搜狗搜索内容 ?实例:爬取百度贴吧概述问题:为什么要学习requests,而不是urllib?requests的底层实现就是urllibrequests简单易用requests在python2 和python原创 2021-03-02 15:31:14 · 349 阅读 · 0 评论 -
爬虫理论基础
文章目录概念主要用途爬虫流程HTTP和HTTPSHTTP常见请求头响应状态码(status code)浏览器的使用谷歌浏览器的使用概念网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,获取请求响应数据,一种按照一定的规则,自动地抓取互联网信息的程序。只要是浏览器能做的事情,原则上,爬虫都能够做主要用途数据采集爬虫的更多用途(了解)12306抢票/各种抢购网站上的投票短信轰炸网络攻击Web漏洞扫描器进行数据分析金融 金融新闻/数据 制定投资策略,进行量化交易原创 2021-02-28 18:07:59 · 248 阅读 · 0 评论