从零到入职-番外篇-Python-网络爬虫3

Python对HTML解析

Python对HTML的解析主要有以下几个库

  1. 使用BeautifulSoup库
  2. 使用XPath
  3. 使用pyquery

但是我们使用的一般是第一个库即bs

说明一下,这个库实在Python基础库中找不到的,即不属于Python的基础库,是属于第三方的库,所以我们要去下载

BeautifulSoup4库的安装
安装第四版
在这里插入图片描述
第一步是进入Anaconda的环境目录
第二部是选择项目用的环境
第三步是安装命令.
安装过程,最后是一个验证。
最后如果想卸载就

pip uninstall beautifulsoup4

输入这一行命令。还是在你使用的环境下。

在这里插入图片描述
就是一个简单的应用以及相应的解释

当然我们在运行当中会发现,虽然会有红色的警告,但是我们的程序可以正常运行,在这里插入图片描述
这里的意思是,我们没有用解释器,但是呢系统自动给我们用了系统的解释器。
那么我们自己添加一下解释器
在这里插入图片描述
这里面就是我们传送的参数,我们需要在参数里面传入使用的解析器。
在这里插入图片描述
在这里插入图片描述
这里我们使用标签名获取内容,但是这个方法有个很大的缺陷,就是他只能获取第一个标签的内容。
在这里插入图片描述
下面我们写一个把他们的标签去掉,只保留内容。
在这里插入图片描述
加一个.string
在这里插入图片描述
看起来是一样的,但是也是有不一样的地方
在这里插入图片描述
在这里插入图片描述
string方法通俗一点就是标签不等于1,就输出None。

Css选择器

  1. 标签名
  2. id
  3. class
    我们可以用class名来选择想要爬取的内容
    例如在这里插入图片描述
    通过这个我们就可以把小说名字全部爬取出来
    在这里插入图片描述
    这里说一个Findall的一个筛选的用法
    在这里插入图片描述
    自己悟一下。
    如果我们想爬取的内容的class值有与之相同的节点的class值
    我们可以去找父节点,但是找到父节点该怎么找下面的字节点
    在这里插入图片描述
    自己悟一下
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值