自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 浅谈正则表达式

正则表达式,就是使用定义好的特定字符组成一个“规则字符串”,来描述、匹配一系列符合其规则的字符串。也就是说,通过正则表达式,我们可以按照一定的匹配规则从字符串中提取出我们想要的数据。 一、匹配规则 1.普通字符 因为普通字符的匹配规则是一个具体的字符串,所以其匹配的灵活性非常有限。 import re target='Life is short,I learn python.' result=re.findall('python',target) print(result) # 得到的结果是['p

2020-11-22 15:42:26 138 1

原创 拉勾网爬取失败?试试这一招

如果你爬过拉勾网就知道拉勾网有点难爬。 不愧是一家专为互联网从业者提供工作机会的招聘网站…… 所以拉勾网使用的是什么反爬机制呢?一个是cookie限制,另一个是IP访问频率限制。 我在这次的爬取中遇到的反爬不是cookie限制,而是IP访问频率被限制了。 解决反爬虫 我选择了拉勾网自带岗位栏中的“数据运营”岗。 在第一次的尝试爬取中我遇到了这样的问题…… 查看...

2020-07-11 22:34:53 957

原创 网络爬虫:Python如何从网上爬取数据?

网络爬虫,就是按照一定规则自动访问互联网上的信息并把内容下载下来的程序或脚本。 在整个的Python爬虫架构里,从基础到深入我分为了10个部分:HTTP、网页、基本原理、静态网页爬取、动态网页爬取、APP爬取、多协程、爬虫框架、分布式爬虫以及反爬虫机制与应对方法。 1.HTTP 使用Python网络爬虫首先需要了解一下什么是HTTP,因为这个跟Python爬虫的基本原理息息相关。而正是围绕着这些底层逻辑,Python爬虫才能一步步地往下进行。 HTTP全称是Hyper Text Transfer..

2020-06-26 19:57:16 7000

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除