爬虫入门
拉倒就拉倒
这个作者很懒,什么都没留下…
展开
-
Beautiful Soup
BS库是解析、遍历、维护“标签树”的功能库 >>>from bs4 import BeautifulSoup >>>soup = BeautifulSoup("<html>data</html>", "html.parser") >>>soup2= BeautifulSoup(open("D://demo.html")...原创 2019-11-14 20:31:31 · 168 阅读 · 0 评论 -
信息标记与提取方法
(一)信息标记的三种形式 信息标记是跟信息一样具有重要价值的数据结构。 1. XML 基于HXML发展来的一种通用的表达形式 2.JSON 有类型的键值对key : value 3. YAML 无类型的键值对,利用缩进表达所属关系 (二)三种信息标记形式的比较 (三)信息提取的一般方法 实际应用中,经常采用融合方法,即结合两种方法提取信息 实例: 要求: ...原创 2019-11-07 11:23:39 · 234 阅读 · 0 评论