- 博客(3)
- 收藏
- 关注
原创 浅谈正则表达式
正则表达式,就是使用定义好的特定字符组成一个“规则字符串”,来描述、匹配一系列符合其规则的字符串。也就是说,通过正则表达式,我们可以按照一定的匹配规则从字符串中提取出我们想要的数据。一、匹配规则1.普通字符因为普通字符的匹配规则是一个具体的字符串,所以其匹配的灵活性非常有限。import retarget='Life is short,I learn python.'result=re.findall('python',target)print(result)# 得到的结果是['p
2020-11-22 15:42:26 147 1
原创 拉勾网爬取失败?试试这一招
如果你爬过拉勾网就知道拉勾网有点难爬。不愧是一家专为互联网从业者提供工作机会的招聘网站……所以拉勾网使用的是什么反爬机制呢?一个是cookie限制,另一个是IP访问频率限制。我在这次的爬取中遇到的反爬不是cookie限制,而是IP访问频率被限制了。解决反爬虫我选择了拉勾网自带岗位栏中的“数据运营”岗。在第一次的尝试爬取中我遇到了这样的问题……查看...
2020-07-11 22:34:53 990
原创 网络爬虫:Python如何从网上爬取数据?
网络爬虫,就是按照一定规则自动访问互联网上的信息并把内容下载下来的程序或脚本。在整个的Python爬虫架构里,从基础到深入我分为了10个部分:HTTP、网页、基本原理、静态网页爬取、动态网页爬取、APP爬取、多协程、爬虫框架、分布式爬虫以及反爬虫机制与应对方法。1.HTTP使用Python网络爬虫首先需要了解一下什么是HTTP,因为这个跟Python爬虫的基本原理息息相关。而正是围绕着这些底层逻辑,Python爬虫才能一步步地往下进行。HTTP全称是Hyper Text Transfer..
2020-06-26 19:57:16 7063
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人