自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 大众点评实战解决反爬

前面讲了大众点评的反爬解决措施 今天就实际来一次做一个大众点评所有商铺的名字 价格 评价 地址 推荐菜的爬虫我在前面试过爬全网的 在几千条之后就会限制你再登大众点评 所以不用代理ip的话会被限制ip 所以这里我限制了自己的数量 爬的是一个类别下的50页里面的一页 也就是15条数据代码比较粗糙 没有去优化 见谅这些代码就是爬取了一个类别的50条url 如果想爬取所有类别的50条url的话 只需要传入每一个类别的url 而每个的url好像需要构造而已from fontTools.ttLib impo

2021-01-19 23:37:20 3011 1

原创 字体反爬一眼就懂

看了许多博主的字体反爬教程 发现都是用x,y轴什么什么来做的,再转到xml文件里面去看 然后给大家分享一个稍微稍微简单的方法原理在第二步我们以大众点评网站为例一 找到正确的字体文件 将其打印成一个列表**如下图 两个woff文件即两个字体文件为什么是找到找到正确的字体文件,博主在几个月前爬过这个网站,有的时候会出现三个以上的woff文件,因为它将数字和汉字的反爬字体文件分成了两个,所以需要我们自己去手动找到哪一个文件是汉字的,哪一个是数字的。接着双击woff文件即可下载,在用我们的老搭档fontc

2020-12-28 12:28:30 298

原创 分享it学习网站

偶然间发现的一个it学习网站,叫it王子。端,算法内容,都是各大机构的最新发布,官网。每一个价格五六十左右,虽然一点小贵,但确实。物超所值,需要的小伙伴自行前往看看有没有需。要的学习视频哦,如果看中喜欢的可以联系我,器学习,深度学习,大数据,云计算,前端后。

2023-06-09 06:09:50 840 9

原创 百度翻译爬虫

对于爬虫来说 反爬高难度之一必定有js加密吧 每次看js代码看的头昏眼暗的 今天分享一个百度翻译的爬虫 js的难度恰到好处 不会太难也不会太简单 对于想了解js加密的同学可以试把手需要用到的一点知识是JS,和PyExecJS库PyExecJS库:在python里面 我们可以用这个库模拟执行js的代码第一步来说肯定是打开网页源代码看看有没有想要的内容 很显然没有那就只有继续分页网页结构 最终发现全局搜索找到了要的东西 json数据那思路清晰的出来了 只需要请求这个url 得到response里面的

2021-01-19 22:00:55 1644 4

原创 git的用法

大家好 我叫打球的三观一切来源一个新手所写 目的是分享和让自己掌握更牢实 所以有大神轻喷git 分布式版本管理系统特点:支持多人同时在线工作 每天早上从中央服务器拉一下 每天晚上在推一下到中央服务器 就能完成自己的任务一 安装sudo apt install git敲git看有没有安装成功出现这个说明安装成功二 跟踪先建立一个文件夹使用git init即可管理这个文件夹出现.git的后缀说明管理成功三 创建版本git add 文件名 用于将工作区的内容添加到暂存区g

2020-08-06 11:19:38 1954 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除