学习笔记
python中含多种对HTML、XML格式进行读取、写入数据的库
如 lxml(相对更快)、Beautiful Soup、html5lib
pandas 的内建函数 read_html 可以使用 lxml、Beautiful Soup 等库将HTML中的表自动解析为DataFrame对象
===============================
需要安装库 lxml、beautifulsoup4、html5lib
如果用的anaconda里面已经有这些库,无需自己安装
如果没有,用conda或者pip来install
===============================
pandas.read_html函数有很多选项,但默认会搜索并尝试解析所有包含在<table>标签中的表格型数据,返回的结果是DataFrame对象的列表
table=pd