- 博客(2)
- 收藏
- 关注
原创 selenium 和 PhantomJS,BeautifulSoup 百度知道爬虫实战
因为任务的要求,需要爬取百度知道的一些问答信息。仅仅使用urllib或者其他获取页面信息的手段是不行的。 因为百度知道的页面是通过ajax异步加载的,所以我们需用使用到selenium 和 PhantomJS,其中PhantomJS是headless 的 webkit服务器端,能够模拟JS环境。 这样我们就能获取完整的页面信息,并且可以进行模拟点击等操作 1 百度知道列表页面分析 ht
2017-02-14 13:24:29 1264
转载 redis的分布式连接配置(win7 和 Ubuntu)
1、在Windows上,下载安装redis(并非使用pip install redis) 下载地址:https://github.com/rgl/redis/downloads 选择最新版和你电脑的对应版本下载安装 安装完成后,进入安装的文件夹下(也可以自己设置一下环境变量), 运行redis服务器的命令:安装目录下的redis-server.exe 运行redis客户端的命令:安装
2016-09-28 16:52:07 350
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人