- 博客(9)
- 资源 (8)
- 收藏
- 关注
转载 爬虫断点续传
相信你一定有过这样的经历:大晚上好不容易写好一个爬虫,添加了种种可能出现的异常处理,测试了很多遍都没有问题,点击了 RUN 开始正式运行 ,然后美滋滋地准备钻被窝睡觉,睡前还特意检查了下确认没有问题,合上眼后期待着第二天起来,数据都乖乖地躺在 MongoDB 中。第二天早上一睁眼就满心欢喜地冲到电脑前,结果发现爬虫半夜断了,你气得想要砸电脑,然后你看了一下 MongoDB 中爬了一半的数据,在想是...
2019-05-04 17:16:21 3292 3
转载 安装mitmproxy以及遇到的坑和简单用法
mitmproxy 是一款工具,也可以说是 python 的一个包,在命令行操作的工具。MITM 即中间人攻击(Man-in-the-middle attack)使用这个工具可以在命令行上进行抓包,还可以对所抓到的包进行脚本处理,非常有用。安装 mitmproxy安装这个我们必须先安装了 pip。 pip 在安装了 python之后自带的,如...
2019-05-04 16:35:25 3012
转载 用Python自动化生成胡歌爱豆日历
本次内容有感于《Python编程快速上手-让繁琐工作自动化》。根据书中的「处理Excel电子表格」章节内容,做出一份专属日历。使用的模块为openpyxl,一个能读取和修改Excel电子表格的Pyhton模块。实现自动化处理表格信息,摆脱无趣无味。此外还有calendar模块,通过该模块生成日历信息。最后利用openpyxl和calendar库,实...
2019-05-04 16:15:37 444
转载 还在为面试心慌慌,69道面试题,助你提升功力
笔试题,面试题,算法题怎么破,有没有好的网站,资料可以参考?周末我找了一个不错的网站,里面面试题干货很全一共有69道,希望对备战的小伙伴有帮助。神奇的网站HackerRank这个网站的名字叫HackerRank,听名字好像很牛逼啊,据说有500多万开发者在上面,主要是为广大面试的小伙伴练手的一个专业网站。简单的注册之后(注册可以用你的Github的账号),...
2019-05-04 15:44:26 496
转载 如何用Python下载各大平台上的音乐
今天给大家推荐一个 GitHub 上的 Python 项目,可以从各大音乐平台上下载音乐歌曲到本地,支持的平台有网易云音乐、QQ音乐、酷狗音乐、百度音乐、虾米音乐,下面是项目地址:https://github.com/0xHJK/music-dl这个项目的功能都在上图可以看到,可以根据歌曲名字来搜索歌曲并下载歌曲,重点是支持多个平台,比如你搜索一首歌,哪个平台有版权就会显示...
2019-05-04 15:38:44 8680
转载 爬虫小偏方系列:robots.txt快速抓取网站的小窍门
转载自公众号猿人学Python在我抓取网站遇到瓶颈,想剑走偏锋去解决时,常常会先去看下该网站的robots.txt文件,有时会给你打开另一扇抓取之门。写爬虫有很多苦恼的事情,比如:1.访问频次太高被限制;2.如何大量发现该网站的URL;3.如何抓取一个网站新产生的URL,等等;这些问题都困扰着爬虫选手,如果有大量离散IP和账号,这些都不是问题,但...
2019-05-04 15:34:03 958
转载 科普一下 IT 行业各种备份术语
转自:我傻笑你跑掉www.zhihu.com/question/263789393/answer/274245200很多同学对热备,冷备,云备了解不深,我科普一下 IT 行业各种备份术语。以后别闹笑话了。假设你是一位女性,你有一位男朋友,于此同时你和另外一位男生暧昧不清,比朋友好,又不是恋人。你随时可以甩了现任男友,另外一位马上就能补上。这是冷备份。假设你是一位女性,同时和两位...
2019-05-04 15:27:36 861 1
转载 分享十个可以让你提高效率的爬虫工具
工欲善其事必先利其器的道理相信大家都懂。而作为经常要和各大网站做拉锯战的爬虫工程师们,则更需要利用利用好身边的一切法器,以便更快的攻破对方防线。今天我就以日常爬虫流程,给大家介绍十款工具,相信大家掌握之后,必定能够在工作效率上,提升一个量级爬虫第一部做什么?当然是目标站点分析1.ChromeChrome属于爬虫的基础工具,一般我们用它做初始的爬取分析,页面逻辑跳转、简单的js...
2019-05-04 15:11:55 716
转载 普及一下 GitHub 上的搜索使用技巧
GitHub 作为程序员聚集地的最大平台,是无数程序员每天必须使用和寻找资料的开源项目平台,只有熟练掌握了搜索技巧,才能高效率的在 GitHub 上找到优质的资源。先介绍一组搜索技巧,如下:比如:如果按开发者所在地址查询,就使用 location:xxxx 的方式。简单来讲,如果我想搜索中国开发者贡献和开源的开源项目,就是:location:china。比如,下图中,我搜索出了 121...
2019-05-03 12:31:28 1205
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人