安装bs4库
如果你用的是新版的Debain或ubuntu,那么可以通过系统的软件包管理来安装:
apt-get install Python-bs4
Beautiful Soup 4 通过PyPi发布,所以如果你无法使用系统包管理安装,那么也可以通过 easy_install 或 pip 来安装.包的名字是 beautifulsoup4 ,这个包兼容Python2和Python3.
easy_install beautifulsoup4
pip install bs4
如果你没有安装 easy_install 或 pip ,那你也可以 下载BS4的源码 ,然后通过setup.py来安装.
Python setup.py install
安装解析器
除了Python自带的html解析器,还有2个第三方解析器可以安装:
- lxml 的三种安装方法:
apt-get install Python-lxml
easy_install lxml
pip install lxml
- html5lib 的三种安装方法:
apt-get install Python-html5lib
easy_install html5lib
pip install html5lib
几种不同解析器的优劣比较:
使用bs4库
如果只需要使用解析可以直接导入BeautifulSoup库:
from bs4 import BeautifulSoup
如果需要用到类似 if isinstance 的函数判断标签类型,需要额外导入bs4库:
import bs4