Python 爬虫
文章平均质量分 69
Yake1965
我是一个老兵,87年接触苹果II机,286、386、486...一路过来,计算机日新月异,而我还是原来的我。一事无成,没有做过项目、没有参加过大赛,但育人无数。
展开
-
Python 04 requests_html 实例
Python 爬虫 requests_html 实例from requests_html import HTMLSession# 爬取指定专栏的文章链接列表def column(url): r = session.get(url) column = r.html.find('#column', first=True) # 返回 文章链接列表 return column.absolute_links# 爬取指定文章的内容,保存为 html 文件。def getHtm原创 2021-03-14 18:55:52 · 1464 阅读 · 0 评论 -
Python 03 requests_html
Requests-HTML解析 HTML 的时候,通常使用 BeautifulSoup 或者是 PyQuery。request 这个库的作者还写了一个 html 解析库。Github 仓库上的描述写到:HTML Parsing for Humans。pip install requests-html一、获取网页构造一个访问 python.org 的 GET 请求:from requests_html import HTMLSessionsession = HTMLSession()url原创 2021-03-19 19:02:49 · 2001 阅读 · 0 评论 -
Python 02 Xpath
XpathXpath (XML Path Language)是在 XML 文档中选择节点的语言一、XPath 路径表达式1、XPath 节点在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的,树的根被称为文档节点或者根节点。2、XPath 节点关系父(Parent)子(Children)同胞(Sibling)先辈(Ancestor)后代(Descendant)3、选取节点XPath 使用路径表达式在 html原创 2021-03-18 12:31:01 · 1205 阅读 · 0 评论 -
Python 01 Css Selector
Python Css Selector假设:A 为第一个选择器,B 为第二个选择器。基本 css 选择器CSS选择器中,最常用的选择器如下: 选择器 描述 举例 * 通配选择器,选择所有的元素。 * <type> 选择特定类型的元素,支持基本 HTML 标签。 h1 .<clas原创 2021-03-19 18:07:03 · 1924 阅读 · 0 评论 -
Xpath CSS Selector
xpath 和 css selector 方式的内容提取介绍1.定位元素在目标网页中,找到相应的元素,右键检查元素,看到元素的代码信息,找到自己需要的,进行右击,这时候有两种方式可以获得标签的位置的具体描述方式:使用 copy selector 使用 copy XPath图示:这两种复制的路径有什么区别(以tr为例)?copy XPath复制出来的路径:/html/body/section/section/section/article/table[1]/tbody/t.原创 2021-03-19 19:23:04 · 2339 阅读 · 0 评论 -
HTML解析-Xpath
HTML解析-XpathHTML 的内容返回给浏览器,浏览器就会解析它,并对它渲染。HTML 超文本标记语言,设计的初衷就是为了超越普通文本,让文本表现力更强。XML 扩展标记语言,不是为了替代 HTML,而是觉得 HTML 的设计中包含了过多的格式,承担了一部分数据之外的任务,所以才设计了XML 只用来描述数据。HTML 和 XML 都有结构,使用标记形成树型的嵌套结构。DOM(Document Object Model) 来解析这种嵌套树型结构,浏览器往往都提供了对 DOM 操作的 AP原创 2021-03-19 16:51:54 · 1290 阅读 · 0 评论