从零到入职-番外篇-Python-网络爬虫3

最新推荐文章于 2024-04-08 06:28:48 发布

J-ADan

最新推荐文章于 2024-04-08 06:28:48 发布

阅读量82

点赞数

分类专栏：从零到入职文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43589736/article/details/111321152

版权

从零到入职专栏收录该内容

34 篇文章 0 订阅

订阅专栏

Python对HTML解析

Python对HTML的解析主要有以下几个库

使用BeautifulSoup库
使用XPath
使用pyquery

但是我们使用的一般是第一个库即bs

说明一下，这个库实在Python基础库中找不到的，即不属于Python的基础库，是属于第三方的库，所以我们要去下载

BeautifulSoup4库的安装
安装第四版
在这里插入图片描述
第一步是进入Anaconda的环境目录
第二部是选择项目用的环境
第三步是安装命令.
安装过程，最后是一个验证。
最后如果想卸载就

pip uninstall beautifulsoup4

输入这一行命令。还是在你使用的环境下。

在这里插入图片描述
就是一个简单的应用以及相应的解释

当然我们在运行当中会发现，虽然会有红色的警告，但是我们的程序可以正常运行，在这里插入图片描述
这里的意思是，我们没有用解释器，但是呢系统自动给我们用了系统的解释器。
那么我们自己添加一下解释器

这里面就是我们传送的参数，我们需要在参数里面传入使用的解析器。

这里我们使用标签名获取内容，但是这个方法有个很大的缺陷，就是他只能获取第一个标签的内容。
在这里插入图片描述
下面我们写一个把他们的标签去掉，只保留内容。

加一个.string

看起来是一样的，但是也是有不一样的地方

string方法通俗一点就是标签不等于1，就输出None。

Css选择器

标签名
id
class
我们可以用class名来选择想要爬取的内容
例如
通过这个我们就可以把小说名字全部爬取出来

这里说一个Findall的一个筛选的用法

自己悟一下。
如果我们想爬取的内容的class值有与之相同的节点的class值
我们可以去找父节点，但是找到父节点该怎么找下面的字节点

自己悟一下

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
从零到入职-番外篇-Python-网络爬虫3

Python对HTML解析Python对HTML的解析主要有以下几个库使用BeautifulSoup库使用XPath使用pyquery但是我们使用的一般是第一个库即bs说明一下，这个库实在Python基础库中找不到的，即不属于Python的基础库，是属于第三方的库，所以我们要去下载BeautifulSoup4库的安装安装第四版第一步是进入Anaconda的环境目录第二部是选择项目用的环境第三步是安装命令.安装过程，最后是一个验证。最后如果想卸载就pip uninstall
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。