自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 selenium 和 PhantomJS,BeautifulSoup 百度知道爬虫实战

因为任务的要求,需要爬取百度知道的一些问答信息。仅仅使用urllib或者其他获取页面信息的手段是不行的。 因为百度知道的页面是通过ajax异步加载的,所以我们需用使用到selenium 和 PhantomJS,其中PhantomJS是headless 的 webkit服务器端,能够模拟JS环境。 这样我们就能获取完整的页面信息,并且可以进行模拟点击等操作 1 百度知道列表页面分析 ht

2017-02-14 13:24:29 1264

转载 redis的分布式连接配置(win7 和 Ubuntu)

1、在Windows上,下载安装redis(并非使用pip install redis) 下载地址:https://github.com/rgl/redis/downloads 选择最新版和你电脑的对应版本下载安装 安装完成后,进入安装的文件夹下(也可以自己设置一下环境变量), 运行redis服务器的命令:安装目录下的redis-server.exe 运行redis客户端的命令:安装

2016-09-28 16:52:07 350

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除