自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 python分析并爬取起点中文网的章节数据,最后保存为txt文档

如题,分析起点中文网,并提取出来章节链接,保存为txt文档。 代码仅供交流使用,请勿用作商业用途,如有违规,请联系删除 一,分析 1.打开带有章节的链接,例如:(随便选的一篇文章) 2.打开浏览器的抓包工具f12(我用的是谷歌浏览器),点击页面的免费试读,因为页面是在一个页面跳转,不需要多开浏览器。 抓到包会发现很杂乱,通过筛选会出现所需要的一些链接,这些链接一个个点击查看返回详情,最后发现那条蓝色链接是包含所有这篇小说的目录的。 3.可以发现这个是一个get包,变化的参数有两个。 4

2020-09-20 20:15:01 1498

原创 python分析并爬取今日头条的视频链接

如题,分析并爬取今日头条的视频链接 代码仅供交流使用 一.分析 1.进入现在的官网http://www.365yg.com/,然后通过抓包发现首页数据的走向,一般来说首页数据放在网页中,要不然就是用json返回的。 可以发现并没有看到任何首页的数据,就剩下在json了 通过开发者工具的筛选xhr数据,然后发现返回这两条链接,第一条被排除了,就只剩下第二条链接,看到返回内容,发现其中data中的id跟首页视频跳转的id并不对应,再分析其他几个,发现是时间戳,最后只有raw_data没有显示任

2020-09-12 16:53:34 2971 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除