Python
阿柯柯
这个作者很懒,什么都没留下…
展开
-
Python爬虫学习笔记(爬虫介绍及requests模块学习)
需求:爬取搜狗指定词条搜索后的页面数据import requestsurl = 'https://www.baidu.com/'#指定urlresponse = requests.get(url=url)#发起请求data_page = response.text#获取响应页面数据值,可以获取以字符串形式的页面数据print(data_page)#持久化操作with open ('b...原创 2019-03-27 09:39:11 · 793 阅读 · 0 评论 -
scrapy 框架简介和基础应用
一.什么是Scrapy?Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。二.安装Linux: pip3 install scrapyWindows: a. pip3 ...原创 2019-04-04 10:24:42 · 171 阅读 · 0 评论 -
Python爬虫实战(三种数据解析方式及对比总结)
爬取网页指定页码的图片import requestsimport reimport osurl = 'https://www.qiushibaike.com/pic/%s/'headers={ 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Ge...原创 2019-03-27 14:52:13 · 2275 阅读 · 1 评论 -
selenuim和phantonJs处理网页动态加载数据的爬取
一.selenium- 1.selenum:三方库。可以实现让浏览器完成自动化的操作。- 2.环境搭建2.1 安装:pip install selenium2.2 获取浏览器的驱动程序下载地址:http://chromedriver.storage.googleapis.com/index.html浏览器版本和驱动版本的对应关系表: https://...原创 2019-04-02 20:41:59 · 353 阅读 · 0 评论