文章只用于学习交流
利用python模块pandas获取网页表格。
网页上的表格内容,想要保存下来,有没有办法呢?答案是有的。
主要有两个步骤,
- 一是读取表格内容,
- 二是保存读取后的内容。
在这里只讲解最简单的一种获取网页表格的方法,即网页纯粹就只是表格。
若网页掺杂着其他不是表格的数据,那就还需要定位到表格再做表格获取。当然,这是后话了。
1.网页展示
网页展示的表格如下。
2.读取表格
运行下面代码。
怎么样,代码读取出来的是不是和网页里面的一样,既然已经读取出来了,那接下就是保存了。
3.保存表格
这一步添加了一行代码,执行代码后可以看到多出了一个table_.csv的文件。
打开保存下来的table_.csv文件看一下
可以看到保存下来的文件和在网页上看到是一模一样的。好了,打完收工。
完整代码
# 网页需要是纯表格才能用此代码,否则还需要定位到网页表格位置
import pandas as pd
url = 'http://quote.cfi.cn/cache_image/node233.js'
html_data = pd.read_html(url)
for i in html_data:
table_data = pd.DataFrame(i)
table_data.to_csv('table_.csv') # 文件名称
print(table_data)
后话
好了,本次的分享到此结束。
有任何疑问欢迎在下方留言哦。