自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 xpath和csv

节点 节点选择工具 chrome插件XPath Helper Firefox插件XPath Checker 表达式 描述 nodename 选取此节点的所有子节点 / 从根节点选取 // 从匹配选择的当前节点选择文档中的节点,不考虑位置 . 选取当前前节点 .. 选取当前节点的父节点 @ 选取属性 查找某个特定节点或值 路径表达式 结果 /bookstore/book[1] 选取属于bookstore子元.

2021-05-20 21:31:25 190

原创 正则表达式

概念:是对字符串操作的一种逻辑公式。事先定义好的一些特殊字符,组合成一个规则的字符串,这个字符串可以对其他字符串进行验证或逻辑过滤。 使用: 普通字符:match函数 re.mach(pattern,string,flags=0) pattern:正则表达式,若匹配成功则返回一个macth对象,否则返回一个None string:要匹配的数据(字符串) flags=0:标志位,用于控制正则表达式的匹配方式,是否要换行,区分大小写等。 快速用法: import re pattern = 'p

2021-05-10 12:09:52 108

原创 爬虫请求模块(2)

requests 小技巧 设置代理 不容易被网站封ip的反爬机制 隐藏真实ip 付费代理ip:快代理等 匿名:网站知道使用代理,但不知道真实ip 高匿:网站不知道使用了代理,更不知道真实ip 本机ip:“cmd”➡“ipconfig” 网络ip:ipip.net ...

2021-05-04 21:59:28 227

原创 爬虫请求模块(1)

urllib 有的较老的爬虫项目用的是urllib 做爬虫时需要requests+urllib共同使用

2021-05-04 16:43:02 1068

原创 爬虫基础概念

GET:查询参数会在URL地址上面显示上显示出来,只是从服务器上获取数据,没有对服务器造成影响。如查看。 POST:查询参数不会显示在URL地址上,而是隐藏在Form表单里面,且会对服务器产生影响,如登录请求。 URL:全球统一资源定位符。 User-Agent用户代理:记录了你浏览器的详细信息,包括操作系统、内核、浏览器的版本等,反反爬的第一步。 Refer:表明当前这个网址从哪个url过来。 Cookie:记录了服务器相关的用户信息,实际上是一小段文本信息(key-value格式),可用于反爬

2021-05-03 14:48:32 37

原创 Python进阶爬虫基础知识

通讯协议:指两台计算机之间进行通信所遵守的规定。国际通用通信协议TCP/IP协议。HTTP又叫做超文本传输协议,其端口为80。HTTPS=HTTP+SSL,SSL保护壳,HTTP与SSL都位于应用层,443。 端口:标识程序的一串数字,一般叫做‘逻辑窗口’。 数据传输网络模型: HTTP的请求和响应 General 全部的 Request URL请求的地址 Request Method请求的方式(get post) Status Code状态码 Resonse Headers 服务器的响.

2021-05-02 21:02:18 72

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除