![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
网络爬虫
zou_gr
在路上,在努力,在成长,
展开
-
python并行实战——多线程
一、前言当爬取很多页的内容时候,爬取的单线程显得尤其慢,所以就在并行中,就可以使用多线程进行爬虫,可以大大提高效率。当然python的底层编码是不适合做多线程,因为存在GIL锁(想要了解这个网上也很多资料),但是对于发出请求多的并行任务,python的多线程还是优于多进程并行的(多进程并行主要应用于计算量大且复杂的场景)。所以今天我们就来使用两种方式对某个小说网站进行爬取《抗日之肥胆英雄》的章节。该小说网址是https://www.biquge.lol/book/9370/3118042.html。二、原创 2020-12-30 13:48:31 · 1415 阅读 · 0 评论 -
python网络爬虫实战——利用逆向工程爬取动态网页
前言之前写过介绍过网络爬虫的文章,都是一些基础知识,所以打算再写几期实战原创 2020-12-04 16:08:20 · 1806 阅读 · 0 评论 -
python网络爬虫(五)
前言这是学习爬虫文章的最后一篇,但不代表爬虫的知识就大概学习完了,只能说有基本的爬虫常识,严格意义爬虫技术本就不是简单的玩意,它关系到了计算机网络、编程基础、前端开发、后端开发、App 开发与逆向、网络安全、数据库、运维、机器学习、数据分析等各个方向的内容,它像一张大网一样把现在一些主流的技术栈都连接在了一起。这个章节我们来做个简单的实例,再好好的总结我们现在掌握的简单爬虫技术再实际应用中到底会面临什么问题?在酷狗音乐网页版下爬取eason的歌曲名和专辑我们大体的思路就是首先直接在网页版搜索“陈奕迅原创 2020-07-16 17:30:37 · 269 阅读 · 0 评论 -
python网络爬虫学习(四)
引言这个章节主要讲模拟登陆,因为在有些网站中,登录网页的表单数据如用户名、密码、验证码等的真实提交地址,它不一定是登录网页的地址,出于安全需要它可能会被设计成其他地址。所以我们有时就需要模拟登录网页才能使用编程控制。下面我们以模拟登录"http://www.tipdm.org"使用表单登录方法实现模拟登录打开网站,单击右上角登录链接,进入登录网页,如图所示:打开Chrome开发者工具后打开网络面板,勾选Preserve log(保持日志)。按"F5”键刷新网页显示各项资源,如图所示:在登录网页原创 2020-07-16 10:22:53 · 589 阅读 · 1 评论 -
python语言网络爬虫学习(三)
回顾前面我们学习了如何爬取一个静态网页和数据存储,那么这章我们就学如何爬取动态网页?区分动态与静态的区别在前面我们需要爬取的网址的源码,会出现我们要爬取的内容,这就是静态,但是,相反地,并不会出现我们想要爬取的内容的网站就是属于动态网页。那么我们会想这两个网页优缺点在哪,动态网页的优点有:以数据库为根基,工作量少;能够完成许多功效;内容更新快等等。而静态网页的好处是速度快,可以跨平台,跨服务器。逆向分析爬取动态网页所为逆向,就是把一个积木搭好,又参照原来搭好的途径拆开。想要利用这方法就得知道动态网原创 2020-07-13 10:36:53 · 487 阅读 · 0 评论 -
python语言网络爬虫学习(二)
内容简介这一章节主要写如何将python爬取的内容存储在json文件和mysql数据库。原创 2020-07-10 17:37:28 · 196 阅读 · 0 评论 -
python语言网络爬虫学习(一)
背景暑假的钟声已敲响了一个星期有余了,这个星期也是有意放松一下自己,这段时间也在忙着各种各样的事情,都还是挺轻松的,那接下来的时间也要安排自己的学习计划了。学习网络爬虫的初衷是因为自己想爬取一下景点、酒店、饭店的评论信息,分析景点、酒店、饭店的口碑,接下来就是开启我的网络爬虫之旅。爬虫简介我是通过泰迪科技的网络爬虫教学视频进行学习的,个人觉得讲得知识点还是比较清晰的,但是内容质量如何,我也还不知道,但是在后续学别的爬虫课程我会继续将爬虫知识补充完整的。网络爬虫就像一只蜘蛛一样在互联网上沿着URL的丝原创 2020-07-09 10:50:30 · 774 阅读 · 0 评论