爬虫神器下载

selenium、phantomjs、BeautifulSoup4等爬虫神器下载

1.selenium下载
下载地址:https://pypi.org/project/selenium/
selenium是一个浏览器自动化操作框架,主要是用来做自动化测试,支持多种浏览器,爬虫中主要用来解决JavaScript渲染问题,模拟浏览器进行网页加载

2.phantomjs下载
下载地址:http://phantomjs.org/download.html
由于selenium 自己不带浏览器,不支持浏览器的功能,它需要与第三方浏览器结合在一起才能使用,因此可以使用 PhantomJS 的工具代替浏览器。PhantomJS 是一个基于Webkit的“无界面”(headless)浏览器,它会把网站加载到内存并执行页面上的 JavaScript,并且不会展示图形界面。

3.BeautifulSoup4下载
下载地址:https://www.crummy.com/software/BeautifulSoup/bs4/download/
BeautifulSoup4是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。 它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。利用它我们不在需要编写正则表达式就可以方便的实现网页信息的提取。
BeautifulSoup4官网文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

4.加载页面时如果中文未显示,是因为linux下缺失中文字体,需要安装下面的包,centos采用yum安装:
yum install bitmap-fonts bitmap-fonts-cjk

5.pip安装
下载地址:https://www.python.org/downloads/
使用 exe installer安装python环境,这样pip会随之安装

6.使用pip安装上述模块
如果环境中安装了pip的话,上软件也可以采用pip 的方法安装
pip install selenium==2.53.6(指定的版本号)
pip install BeautifulSoup4

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值