爬虫
清装
这个作者很懒,什么都没留下…
展开
-
BeautifulSoup库的使用
文章目录一.BeautifulSoup库的介绍二.BeautifulSoup库的使用方法三.BeautifulSoup库的语法四.爬取数据, 并使用BeautifulSoup解析1).分析页面, 制定爬虫的流程2).编写爬虫的代码并解析数据五.总结一.BeautifulSoup库的介绍BeautifulSoup也是一个解析库BS解析数据是依赖解析器的, BS支持的解析器有html.pars...原创 2019-08-18 15:54:59 · 352 阅读 · 0 评论 -
selenium与谷歌无头浏览器的应用
文章目录1.selenium的介绍2.selenium的安装3.selenium常用操作3.1 测试一下你的selenium3.2 获取页面元素3.3 节点交互操作3.4 获取网页的数据3.5 子页面4.使用selenium模拟登录qq空间5.谷歌无头浏览器1.selenium的介绍selenium是一个web自动化测试用的框架. 程序员可以通过代码实现对浏览器的控制, 比如打开网页, 点击...原创 2019-08-19 23:14:58 · 1274 阅读 · 0 评论 -
使用selenium抓取动态加载页面
文章目录1.使用selenium抓取动态图片2.使用selenium抓取动态数据2.1 分析爬虫页面, 制定爬虫的流程2.2 编写爬虫代码, 进行页面爬取3.总结本章节将带大家使用selenium抓取一些动态加载的页面, 让大家体会到selenium的好用之处1.使用selenium抓取动态图片本次抓取的图片是百度图片中关于安琪拉的相关图片import timeimport reques...原创 2019-08-20 01:04:32 · 6317 阅读 · 1 评论 -
爬虫的起点
1.python有哪些网络库在真实浏览网页我们是通过鼠标点击网页然后由浏览器帮我们发起网络请求,那在Python中我们又如何发起网络请求的呢?答案当然是库,具体哪些库?下面将给大家列举出来:Python2: httplib、httplib2、urllib、urllib2、urllib3、requestsPython3: httplib2、urllib、urllib3、requests可...原创 2019-08-11 13:35:15 · 458 阅读 · 0 评论 -
爬取图片懒加载页面
文章目录1.什么是懒加载2.为什么要使用懒加载3.如何爬取图片懒加载的网站3.1 分析爬虫页面, 指定爬取流程3.2 编写爬虫的代码4.总结在带大家爬取图片懒加载页面之前, 先为大家介绍一下什么是图片懒加载, 懒加载有什么用, 在理解原理后再去爬取, 相信就会简单多了。1.什么是懒加载在一些网站或者app上会看到 鼠标或手势过快,而图片没有加载出来由色块或其他图片代替的情况,当图片出现在我们...原创 2019-08-21 01:09:52 · 3898 阅读 · 1 评论 -
xpath与requests的使用
文章目录一.requests的使用二.xpath解析库的安装与使用三.使用requests爬取网站四.总结一.requests的使用在上篇文章中给大家演示了一下使用urllib模块中的request爬取豆瓣电影, 相信大家练习过后都会觉得很简单, 今天带大家开始使用requests模块了, 关于requests的介绍与安装在上篇文章中已经有过描述, 这里就不再叙述了.requests的...原创 2019-08-13 23:49:50 · 902 阅读 · 0 评论 -
requests高阶用法
文章目录一.requests上传文件操作二.会话维持: Session对象三.设置超时时间四.Prepare Request一.requests上传文件操作import requestsfiles = {'file': open('filename', 'rb')}res = requests.post(url=url, files=files)二.会话维持: Session对象fr...原创 2019-08-18 14:49:52 · 200 阅读 · 0 评论