python爬虫
文章平均质量分 68
xlengji
python博客
展开
-
什么是Scrapy
Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。 Scrapy 使用了 Twisted异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种...原创 2018-07-04 21:17:47 · 1636 阅读 · 0 评论 -
Ubuntu中MongoDB的安装
安装 下载mongodb的版本,两点注意 根据业界规则,偶数为稳定版,如3.2.X;奇数为开发版,如3.3.X 32bit的mongodb最大只能存放2G的数据,64bit就没有限制 MongoDB官网安装包下载地址:http://www.mongodb.org/downloads MongoDB安装文档:https://docs.mongodb.com/g...原创 2018-07-15 13:08:42 · 1281 阅读 · 0 评论 -
MongoDB的使用
mongod:mongo 是启动MongoDB shell客户端的命令mongod 是启动MongoDB数据库服务的命令,主要提供了四种启动方式:1. 命令行方式直接启动MongoDB默认的存储数据目录为/data/db(需要事先创建),默认端口27017,也可以修改成不同目录:# 直接启动mongod,默认数据存储目在 /data/dbpython@ubuntu:~$...原创 2018-07-15 14:43:46 · 288 阅读 · 0 评论 -
无头浏览器
想在python爬虫操作动态的数据,就必须学习selenium自动化测试工具, 而使用selenium的前提是需要无头浏览器(无界面浏览器)1 什么是seleniumSelenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器),可以接收指令,让浏览器自动加...原创 2018-07-27 19:36:55 · 1896 阅读 · 0 评论 -
selenium的基本使用
1 加载网页:selenium通过控制浏览器,所以对应的获取的数据都是elements中的内容```pythonfrom selenium import webdriver driver = webdriver.PhantomJS()driver.get("http://www.baidu.com/")driver.save_screenshot("长城.png")```...原创 2018-07-27 19:39:34 · 313 阅读 · 0 评论 -
selenium 处理cookie及switch的使用
1 selenium 处理cookie通过driver.get_cookies()能够获取所有的cookie# 把cookie转化为字典{cookie[‘name’]: cookie[‘value’] for cookie in driver.get_cookies()}#删除一条cookiedriver.delete_cookie("CookieName")# 删除所有的co...原创 2018-07-27 19:42:59 · 674 阅读 · 0 评论