自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 用request和xpath库,爬取PPT素材,(背景、图标、模板)

文章目录写在前面,源代码仅供学习交流,请各位尊重网络秩序,合理、合法使用爬虫。这次是用我自己写的requests 功能库 和lxml函数库 制作的爬虫,分为两个PY文件一个是库的支持文件如下:在另外一个主运行文件中,需要加载这个文件功能库的注释,已经尽可能写得比较完整,可以拿来直接用,制作其他的爬虫。import requestsimport osfrom lxml import ...

2019-11-02 22:22:42 396

原创 用requests库和lxml库,爬取PPT图像素材。

文章目录爬取的对象是素材中国 http://online.sccnn.com/代码如下,import requestsimport osfrom lxml import etreefrom requests.exceptions import RequestExceptionurl_list = []base_url = 'http://online.sccnn.com/html...

2019-10-29 23:05:04 568 2

原创 Python中的XPath解析库使用

文章目录1. XPath 概览Python中的XPath解析库使用的个人学习笔记。 XPath,全称 XML Path Language,即 XML 路径语言,它是一门在 XML 文档中查找信息的语言。最初是用来搜寻 XML 文档的,但同样适用于 HTML 文档的搜索。所以在做爬虫时完全可以使用 XPath 做相应的信息抽取。1. XPath 概览XPath 的选择功能十分强大,它提供了非...

2019-10-27 16:57:58 344

原创 正则表达式笔记

新手的学习笔记,便于自己熟悉和记忆。1、常用的匹配规则模式描述\w匹配字母、数字及下下划线\W匹配不是字母、数字及下下划线的字符\s匹配任意空白字符\S匹配任意非空字符\d匹配数字,等价于[0-9]\D匹配不是数字的字符\A匹配字符串开头\Z匹配字符串结尾的,如果存在换行,只匹配到换行前的结束字符串\z匹配字...

2019-10-27 10:44:30 146

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除