- 博客(3)
- 资源 (1)
- 问答 (5)
- 收藏
- 关注
原创 如何提升爬虫的速度
在介绍如何提升爬虫的速度之前,首先需要熟悉并发和并行、异步和同步的概念。一、并发和并行并发(concurrency)和并行(parallelism)是两个相似的概念。通俗来说,并发是指在一段时间内发生若干事件的情况,并发强调的是***一段时间内***;并行是指在同一时刻发生若干事件的情况,并行强调的是在***同一时刻***。我们买电脑的是时候,配置单里面有一项会说明你的CPU是单核还是多核的,现在一般的电脑可能都有8核,如果不清楚自己电脑是几核的,可以参考以下python代码查询:from mult
2020-06-18 10:20:52
1186
原创 python拉勾网招聘信息爬取(单线程,最新)
一、任务描述爬取拉勾网发布的关于“会计”岗位的招聘信息,通过查询相关文章发现,普遍都是使用单线程对网站信息进行爬取,且拉勾网经过多次维护更新,对简单的爬取代码有反爬虫机制,例如不设置休眠时间,则无法获取内容,甚至爬取每一条招聘信息之间都需要时间间隔:如上图所示,如果不设置时间间隔,爬取到第10条信息后则会无法获取信息。本文先简单用单线程实现拉勾网的信息爬取。二、网页分析首先需要你用自己的手机号进行登录,且本次任务是爬取“会计”相关工作的招聘信息,因此先在搜索栏里搜索“会计”,当然你想爬取别的专业职
2020-05-31 23:38:11
709
原创 python随机面试顺序小程序
一、小程序介绍功能介绍:例如,输入学生总数为12,题目总数为20,点击一次随机抽题,程序则会为学生随机抽取1-20中的题号,输出文本框则会显示:第一名同学的题目是:5.共可以点击12次,每次输出的结果不会重复,当点击第13次,则会提示抽取完毕。注:如果输入的学生总数大于题目总数,则输出文本框会提示题目总数太少应用介绍:可以简单的为高校进行复试时,抽取专业题。由于没有进行多次测试,只是简单完成了功能,如有bug请评论,自己也将一一问答。没有对界面进行美化,只是简单的将需要实现的功能完成,下面将每一
2020-05-15 18:01:14
1648
python拉勾网信息(单线程).py
2020-05-31
爬取网址中评论时,碰到多个”展开“应该怎么办?
2020-06-30
python程序运行成功,为什么没有爬取到具体的网址??
2020-02-22
用C语言编杨辉三角为什么会这样
2019-02-24
为什么这个程序只能输出字符c为其他字符。
2019-01-23
为什么这个c语言程序最小值永远是输入的第一个数?
2019-01-16
TA创建的收藏夹 TA关注的收藏夹
TA关注的人