![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
Maggie liu
这个作者很懒,什么都没留下…
展开
-
Mac如何安装Anaconda的python环境
目录下载Anaconda安装Anaconda检测Anaconda和IDE是否安装成功打开VS code界面下载Anaconda官网地址:https://www.anaconda.com点击网址进入Anaconda官网,官网的界面是这样子。点击download之后就会跳转到下载界面,一共有三个版本:windows,macOS和Linux。网页默认选择当前系统的版本,比如我的电脑就自动选择了...原创 2019-05-20 19:54:06 · 17341 阅读 · 1 评论 -
正则表达式?* +的区别
?:匹配0次到多次*:匹配1次到多次+:匹配0次到1次>>> s = 'fooooo'>>> re.findall('o?',s)['', 'o', 'o', 'o', 'o', 'o', '']>>> re.findall('o*',s)['', 'ooooo', '']>>> re.findall('o+'...原创 2019-05-24 14:26:32 · 4177 阅读 · 0 评论 -
HTML和CSS基本知识
HTML是什么html是描述网页的一种语言,是超文本标记语言。它不是编程语言,而是标记语言。html使用标签标记描述网页。HTML标签html和/html标签限定了文档的开始点和结束点,该元素可以告知浏览器其自身是一个HTML文档。在html和/html之间是文档的头部和主体,文档的头部由head标签定义,而主体由body标签定义。标签都是成对出现的,以<关键字>开始,以<...原创 2019-05-21 16:54:40 · 197 阅读 · 0 评论 -
match 函数和 fullmatch函数
match函数,从字符串起始位置开始匹配fullmatch函数,完全一样的字符串才可以匹配到。>>> s = 'www.csdn.net'>>> re.match('www',s)<_sre.SRE_Match object; span=(0, 3), match='www'>>>> re.match('csdn',s)...原创 2019-05-27 14:10:45 · 2265 阅读 · 0 评论 -
常见爬虫策略
分析网站结构方法一:利用网站协议和sitemap去分析网站结构Robots 协议也称为爬虫协议、机器人协议,全称是“网络爬虫排除标准”该协议文件放置在网站根目录下,在访问网站的时候要查看的第一个文件就是robots.txt协议文件,网站通过robots.txt协议文件告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,但是并不是每个网站必须有马蜂窝robots协议sitemap告诉搜索引...原创 2019-06-02 18:55:58 · 931 阅读 · 0 评论 -
time函数控制爬虫的节奏
网站对爬虫的限制,最主要依赖于每个IP(或每个用户)的访问频次,过高频率的访问会被网站限制访问,因此我们应该针对每个目标地址的访问频率限定。常用方法是设置间隔时间,抓取网页之后,停顿固定时间之后,再次进行抓取。例子如下:首先编写一个模块文件规定网页抓取间隔时间,命名为global_var.py,headers = {你抓取网页的headers}crawl_interval = 2....原创 2019-06-10 19:37:49 · 2083 阅读 · 0 评论