![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
zadavis
这个作者很懒,什么都没留下…
展开
-
爬虫之BeautifulSoup的用法
Beautiful Soup是python的一个HTML或XML的解析库,可以很方便地从网页中提取数据。BS自动将输入文档转换成Unicode编码,输出文档转换成UFT-8编码。用法from bs4 import BeautifulSouphtml = '''<html><head><title>The Dormouse's story</title></head><body><p class="title" nam原创 2020-07-24 13:20:22 · 1990 阅读 · 0 评论 -
爬虫之re 正则表达式的用法
正则表达式是通过特殊的字符序列,实现字符串的检索、替换、匹配验证。在爬虫时,使用正则表达式可以方便我们快速提取到HTML中的信息书写规则项目Value[abc]abc中的一个[a-z]a-z中的一个[0-9]0-9中的一个[a-f0-5]a-f或0-5中的一个[ab][de][12]每个[]取一个,连起来match()从字符串的开头开始对整个字符串进行匹配,一但开头匹配不成功就报错,如果不匹配,返回Noneimport reconte原创 2020-07-17 17:23:22 · 927 阅读 · 0 评论 -
爬虫之XPath的用法
Xpath简介XPath (XML Path Language)是一门在 HTML\XML 文档中查找信息的语言,可用来在 HTML\XML 文档中对元素和属性进行遍历。在Python爬虫中, XPath 我们可以利用快速地定位 HTML\XML 响应中的特定元素以及获取节点的信息,并且通常情况下会比使用正则表达式提取更简单而且更高效。Xpath常用规则表达式描述nodename选取此节点的所有子节点/从当前节点选取直接子节点//从当前节点选取子孙节点.选原创 2020-07-17 14:17:23 · 6944 阅读 · 0 评论