- 博客(5)
- 收藏
- 关注
原创 xpath
一、什么是xml定义:可扩展标记性语言。特点:xml的是具有自描述结构的半结构化数据。作用:xml主要设计宗旨是用来传输数据的。他还可以作为配置文件。二、xml和HTML的区别语法要求不同:xml的语法要求更严格。(1)html不区分大小写的,xml区分。(2)html有时可以省却尾标签。xml不能省略任何标签,严格按照嵌套首位结构。(3)只有xml中有自闭标签(没有内容的...
2019-12-20 23:17:04 118
原创 正则表达式
一、数据的分类结构化数据a) 特点:数据以行为单位,每一个数据表示一个实体。每一行数据的属性都是一样的。b) 举例:关系型数据库中的表就是结构化数据。c) 处理方法:sql半结构化数据a) 特点:结构化数据的另一种形式。他并不符合关系型数据的特点,不能用关系型模型来描述。但是这种数据包含相关标记,有用来分割语义元素以及字段进行分层的描述。b) 因此也被称为自描述结构。c) 举例:...
2019-12-19 23:45:04 71
原创 cookie和session
cookie和session什么是cookiecookie是指网站为了鉴别用户身份,进行会话跟踪而存储在客户端本地的数据。什么是session本来的含义是指有始有终的一些列动作,而在web中,session对象用来在服务器存储特定用户会话所需要的属性及信息。cookie和session产生的原因cookie和session他们不属于http协议范围,由于http协议是无法保...
2019-12-19 23:26:37 91
原创 requests模块
requests模块使用步骤:a) 导包:import requestsb) 确定基础url:base_url=‘url地址’c) 发送请求,获取响应:response = requests.get/post(base_url)4) 处理响应内容requests.get()——get请求方法参数详解:a) requests.get(url,header,params,time...
2019-12-18 21:41:58 99
原创 python爬虫
一、 爬虫的定义爬虫就是自动的爬取万维网数据的程序或者脚本。二、 爬虫可以解决的问题解决冷启动问题。索索引擎的根基。——通用爬虫。帮助机器学习建立知识图谱。制作各种比价软件。三、 爬虫工程师的进阶之路初级爬虫工程师 1、 web前端知识:HTML、CSS、JavaScript、DOM、DHTML、Ajax、jQuery、json等; 2、 正则表达式,能提取正常一般...
2019-12-17 22:47:34 162
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人