![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
文章平均质量分 67
子不语子不宁
这个作者很懒,什么都没留下…
展开
-
标签树的平行遍历
标签树的平行遍历有四个属性,分别为:.next_sibling 返回按照HTML文本顺序的下一个平行节点标签.previous_sibling 返回按照HTML文本顺序的上一个平行节点标签.next_siblings 迭代类型,返回按照HTML文本顺序的后续所有平行节点标签.previous_siblings ...原创 2018-02-10 17:52:18 · 652 阅读 · 0 评论 -
标签树的上行遍历
原创 2018-02-08 14:58:56 · 541 阅读 · 0 评论 -
bs4库的prettify()方法
基于bs4库HTML的格式输出如何让<html>页面更友好的显示prettify()方法:>>> import requests>>> r = requests.get("http://python123.io/ws/demo.html")>>> demo = r.text>>> demo原创 2018-02-22 14:43:17 · 16980 阅读 · 0 评论 -
BeautifulSoup库入门小结
1.概念要清晰BeautifulSoup库是用来解析HTML和XML文档的一些功能库2.使用方法from bs4 import BeautifulSoup #来引入BeautifulSoup的类型,并用这个类型加载相关的解析器,来解析一个变量出来soup = BeautifulSoup('<p>data</p>','.html....原创 2018-02-22 20:33:45 · 284 阅读 · 0 评论 -
三种信息标记比较
XML实例<person> <firstName>Tian</firstName> <lastName>Song</lastName> <address> <streetAddr>关山大道5号街</streeAddr> &原创 2018-02-24 18:44:36 · 286 阅读 · 0 评论 -
信息提取的一般方法
方法一:完整解析信息的标记形式,再提取关键信息。XML JSON YAML需要标记解析器 eg: bs4库的标签树遍历优点: 信息解析准确缺点: 提取过程繁琐,速度慢。方法二: 无视任何标记形式,直接搜索关键信息。搜索对信息的文本查找函数即可。优点: 提取过程简洁,速度较快。缺点:提取结果准确性与信息内容相关。融合方法融合方法: 结合形式解析与搜索方法,提取关键信息。XML JS...原创 2018-02-25 20:48:33 · 703 阅读 · 0 评论