![](https://img-blog.csdnimg.cn/20200404123836187.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
日常训练之爬虫
日常爬虫总结,各种碰见问题的解决方法。
Asparagus fern
这个作者很懒,什么都没留下…
展开
-
爬虫训练(六):安装使用MongoDB储存数据错误集锦
摘要:一、安装MongoDB就开始碰见问题,先做部分整理,具体问题各位可以根据这些方向再去搜索,毕竟个人可能碰见不同的问题。二、问题一: 安装到后半部分出现“service ‘mongodb server (mongodb)’(mongodb)failed to start…”解决: 参考MongoDB安装过程中出现service MongoDB failed to start,verify that you have sufficient privileges to start…问题二: 由于电原创 2020-05-14 23:56:55 · 195 阅读 · 0 评论 -
爬虫训练(五):Lxml库与Xpath语法
基础内容主要参考《从零开始学python网络爬虫》。今天主要练习lxml库和xpath语法的使用,本文主要记录个人操作中的问题。一、lxml库lxml库为XML解析库,但也很好的支持了HTML文档的解析功能。lxml库很实用的功能就是自动修正HTML代码。二、xpath语法xpath是一门在XML文档中查找信息的语言,对HTML文档也有很好的支持。1、节点关系节点名性质...原创 2020-04-25 18:17:30 · 302 阅读 · 0 评论 -
爬虫训练(四):正则表达式
练习内容参考《从零开始学Python网络爬虫》,代码照书上搬得,主要对存在的问题进行总结。一、基本概念正则表达式是一个特殊的符号系列,它能帮助开发人员检查一个字符串是否与某种模式匹配。爬虫实战中常用(.?),“()”表示括号的内容作为返回结果,“.?”是非贪心算法,匹配任意的字符。1、一般字符字符含义.匹配任意单个字符(不包括换行符\n)\转义字符(把有特殊...原创 2020-04-18 21:11:54 · 237 阅读 · 0 评论 -
爬虫训练(三):爬取酷狗音乐
今天趁机一鼓作气,把简单爬虫内容一次学习完毕,最后以爬取酷狗音乐排行榜歌曲作为结束,然后对此次学习做一个整理和总结。而且前两篇有些混乱,这里把内容做一次阶段性总结。一、安装包爬虫三大包:requests、lxml、BeautifulSoup,根据自己的python配置情况进行安装,这里不再赘述。二、爬虫简单尝试——爬取整个网页内容1.请求头的查找具体参考文章:爬虫训练:第一次真好~2....原创 2020-04-06 22:56:52 · 2105 阅读 · 1 评论 -
爬虫训练(二):乱码问题
背景:在第一次尝试爬虫过程中,整个爬虫尝试算是成功了,但是还存在很多小瑕疵,这里最主要一个问题就是爬虫结果为乱码,根据错误情况再次查了好多说法。一.问题分析目前来看,对于爬取整个网页出现的乱码,解决方法非常简单,错误原因主要是网页编码。Requests 会基于 HTTP 头部对响应的编码作出有根据的推测,而这可能与网页自身的编码并不一致,检查代码如下:#print(res.encodin...原创 2020-04-06 18:06:46 · 266 阅读 · 0 评论 -
爬虫训练:第一次真好~
今天把这两天抽空简单尝试的爬虫训练做了一下总结,练习的参考书为《从零开始学python网络爬虫》,作者罗攀,蒋仟。本文主要针对书中讲解操作,本人操作过程中,在最新情况下遇到的问题,以及自己的解决方法和未解决问题记录。(顺便提一句题外话,今天也是清明节,自己能坐在电脑前敲出这段话,要感谢付出的勇士们,感谢他们的伟大,致敬!!!)一.爬虫三大库:Requests、Lxml、BeautifulSou...原创 2020-04-04 18:50:35 · 375 阅读 · 0 评论