Python 网络爬虫与信息提取（第二周）

最新推荐文章于 2024-06-01 22:35:29 发布

谢晓永

最新推荐文章于 2024-06-01 22:35:29 发布

阅读量4.1k

点赞数 3

分类专栏： Python网络爬虫与信息提取

本文链接：https://blog.csdn.net/xiaoyong5854/article/details/84595207

版权

Python网络爬虫之提取 (第2周)

1.‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬下面哪个Python库不能用于提取网页信息？‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬
A
re
B
Beautiful Soup
C
requests
D
lxml
正确答案： C
requests是爬虫库，只用于获取页面，不对页面信息进行提取。

2.‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬ 下面哪个不是信息提取的思路？‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬
A
按照信息格式完全解析，解析后找到所需提取的信息。
B
无视格式，直接搜索找到所需提取的信息。
C
通过自然语言处理方式找到所需提取的信息。
D
结合部分格式解析和搜索的方式提取所需要的信息。
正确答案： C
自然语言理解一般针对语言文本，HTML等信息标记格式产生的文本需要采用信息提取方式获得语言文本，才使用自然语言理解方式进一步处理（如果有需要的话）。

3 关于Beautiful Soup库说法错误的是：‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬
A
Beautiful Soup库可常用于生成标签树
B
Beautiful Soup库也叫bs4库
C
Beautiful Soup库能够对HTML和XML等格式进行解析
D
Beautiful Soup库是解析、遍历、维护标签树的功能库
正确答案： A
Beautiful Soup库不能够生成标签树，只能解析、遍历和维护。

4.‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬为什么Beautiful Soup库叫这个名字？‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬
A
开发者喜欢煲汤
B
之前有类似的库叫类似的名字
C
Python Software Foundation要求开发者叫这个名字
D
原因不详，第三方库起名原因多种多样，没必要深究
正确答案： D
Python计算生态采用"集市"模式，命名权归贡献者。

5.‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬下面代码中，href属于哪个类别？‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮

最低0.47元/天解锁文章

谢晓永

关注

3
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
Python 网络爬虫与信息提取（第二周）

Python网络爬虫之提取 (第2周)1.‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬下面哪个Python库不能用于提取网页信息？‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬...
复制链接

扫一扫