![](https://img-blog.csdnimg.cn/20200429204644152.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Spider
爬虫基本介绍
寅月十八
一个小白程序员的成长历程记录
展开
-
正则表达式----python中实现(re库的基本使用方法)
基本使用方法使用compile()函数将正则表达式的字符串形式编译为一个 Pattern 对象通过 Pattern对象提供的方法对文本进行匹配查找,获得匹配结果(一个 Match 对象)使用 Match 对象提供的属性和方法获得信息,根据需要进行其他的操作compile 函数compile 函数用于编译正则表达式,生成一个 Pattern 对象match方法match 方法用于查找字符串的头部(也可以指定起始位置),它是一次匹配,只要找到了一个匹配的结果就返回,而不是查找所有匹配的结原创 2020-05-22 22:56:50 · 557 阅读 · 0 评论 -
提取数据处理02---结构化数据处理03(XML 文件、lxml库的基本使用)
XML 文件处理方法XPath正则表达式转化成Python类型(xmltodict)CSS选择器原创 2020-05-21 20:53:41 · 310 阅读 · 1 评论 -
提取数据处理02---结构化数据处理04(XPath的基本使用)
文章目录XPath概述选取节点案例演示谓语方法案例演示选取未知节点案例演示选择多个路径(|)位置路径表达式绝对位置路径相对位置路径XPath 运算符W3School官方文档XPath概述XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。选取节点XPath 使用路径表达式在 XML 文档中选取节点。表达式描述nodename选取此节点的所有子节点/从根节点选取//从匹转载 2020-05-21 20:18:45 · 198 阅读 · 0 评论 -
提取数据处理02---结构化数据处理02(JsonPath的基本使用)
12原创 2020-05-21 16:51:03 · 162 阅读 · 0 评论 -
提取数据处理02---结构化数据处理01(JSON文件、JSON模块包的基本使用)
JOSN文件处理方法JSON Path转化成Python类型进行操作(json类)JSON PathXML 文件处理方法XPath正则表达式转化成Python类型(xmltodict)CSS选择器原创 2020-05-20 20:40:02 · 396 阅读 · 0 评论 -
提取数据处理01---基本概述
数据内容分类数据内容一般分为两种类型,结构化的数据和非结构化的数据结构化数据先有结构,后有数据结构化数据,是高度组织和整齐格式化的数据。它是可以放入表格和电子表格中的数据类型。数据之间存在对应的关系数据案例电话号码、地址、json,xml等非结构化数据先有数据,在有结构非结构化数据,除结构化数据之外的其他数据。一般杂乱无序。数据案例网站数据、聊天记录、移动数据、html等...原创 2020-05-20 11:26:38 · 253 阅读 · 0 评论 -
提取数据处理总流程
文章目录结构化数据非结构化数据结构化数据非结构化数据原创 2020-05-23 15:38:48 · 472 阅读 · 0 评论 -
爬虫的基本介绍
文章目录定义基本分类基本工作原理Robots协议必备知识体系计算机网络原理requests库的基本使用常用抓包工具的使用数据库的基本使用re库的基本使用xpath和xml类库的使用Selenium工具使用Scrapy框架的基本使用定义通俗的可以理解为一个简单的机器人。它的工作就是不断的浏览各种网站,读取数据,并将各种数据储存下来基本分类分为通用爬虫和聚焦爬虫通用爬虫:类似于搜索引擎,...原创 2020-04-30 19:25:03 · 595 阅读 · 2 评论