夭寿啦!pandas还能这么用!

在这里插入图片描述

前言:最近在公众号看到一篇文章说pandas也可以写爬虫,并且对与表格型的数据,非常友好强大,可以直接保存成dataframe格式,是不是很强大,下面我们来介绍一下他的用法,非常的简单。
试用情况:
这种
在这里插入图片描述
这样子的
在这里插入图片描述
如果查看一下网页的HTML结构(Chrome浏览器F12),会发现它们有个共同的特点,不仅是表格,还是以Table结构展示的表格数据,大致的网页结构如下:

<table class="..." id="...">
     <thead>
     <tr>
     <th>...</th>
     </tr>
     </thead>
     <tbody>
        <tr>
            <td>...</td>
        </tr>
        <tr>...</tr>
        <tr>...</tr>
        ...
        <tr>...</tr>
        <tr>...</tr>        
    </tbody>
</table>

使用方法:
使用pandas中的read_html就可以很方便的抓取网页中表格类型的数据。
read_html

  • io: str or file-like
    接收网址、文件、字符串。网址不接受https,尝试去掉s后爬去
  • header: int or list-like or None
    指定列标题所在的行
  • parse_dates:bool
    解析日期
    案例:
    下面我们以一个真实的案例来讲述:爬取目标为http://www.dxsbb.com/news/16131.html
    在这里插入图片描述
    我们可以发现上面有一个table标签,而我们的目标爬虫只会针对网页中的table标签,也就是表格进行爬取。
    实现:
import pandas as pd
df = pd.DataFrame()
url = 'http://www.dxsbb.com/news/16131.html'
df = pd.read_html(url)
df[0]

在这里插入图片描述
这个数据是不是看起来很舒服?如果有其他需要,也可以很方便的保存为csv等其他格式。
Ending!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值