Python网络爬虫之提取 (第2周)
1.下面哪个Python库不能用于提取网页信息?
A
re
B
Beautiful Soup
C
requests
D
lxml
正确答案: C
requests是爬虫库,只用于获取页面,不对页面信息进行提取。
2. 下面哪个不是信息提取的思路?
A
按照信息格式完全解析,解析后找到所需提取的信息。
B
无视格式,直接搜索找到所需提取的信息。
C
通过自然语言处理方式找到所需提取的信息。
D
结合部分格式解析和搜索的方式提取所需要的信息。
正确答案: C
自然语言理解一般针对语言文本,HTML等信息标记格式产生的文本需要采用信息提取方式获得语言文本,才使用自然语言理解方式进一步处理(如果有需要的话)。
3 关于Beautiful Soup库说法错误的是:
A
Beautiful Soup库可常用于生成标签树
B
Beautiful Soup库也叫bs4库
C
Beautiful Soup库能够对HTML和XML等格式进行解析
D
Beautiful Soup库是解析、遍历、维护标签树的功能库
正确答案: A
Beautiful Soup库不能够生成标签树,只能解析、遍历和维护。
4.为什么Beautiful Soup库叫这个名字?
A
开发者喜欢煲汤
B
之前有类似的库叫类似的名字
C
Python Software Foundation要求开发者叫这个名字
D
原因不详,第三方库起名原因多种多样,没必要深究
正确答案: D
Python计算生态采用"集市"模式,命名权归贡献者。
5.下面代码中,href属于哪个类别?