自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 glided_sky 镀金的天空 爬虫闯关 js加密1

最近发现的一个爬虫练习网站,尝试着做了几道题,发现覆盖面很大,因此来记录分享一下自己的解题思路。http://glidedsky.com/JS加密目标网址打开开发者工具观察网络请求相应,发现该页面调用get方法传入参数得到的相应正是我们要获取的数据内容。观察传参,发现三个参数:page,t,sign。page参数是请求的页数,t参数推测是一个时间戳,sign参数应该是加密后的参数,也就是本次的重头戏。尝试在全局搜索了下t参数的值,但是有用的信息,直接搜索"sign"这个参数的英文名,(这里

2021-12-13 10:45:57 1020

原创 glided_sky 镀金的天空 爬虫闯关1-2 4-5 解题思路加代码

最近发现的一个爬虫练习网站,尝试着做了几道题,发现覆盖面很大,因此来记录分享一下自己的解题思路。http://glidedsky.com/第一题和第二题两道问题都是相似的问题,区别在于一个数据加载在一页,一个数据加载在1000页中。但是要注意的是:直接用requests库请求目标网址会要求登录认证,因此要先把自己的登录信息获取。进入登录页面,尝试登录,发现浏览器发起了两次请求,一次post请求,然后发生了重定向,又对登录页面发起了一次get请求。可以先看看post请求传递了什么参数发现post

2021-12-10 21:34:46 2158 4

原创 python selenium 大众点评餐厅信息+用户评论 爬虫

这次爬取的目标是大众点评里餐厅的信息以及用户的评论。大众点评的反爬内容比较丰富,这里也只是记录了如何通过selenium模拟访问大众点评,以及大众点评的woff文件构建字典并对加密文字进行替换。目标url='http://www.dianping.com/shop/G7RgscHLjDjXY9hg'进入目标网页,对我们想要的商店名进行分析,发现它在开发者工具与页面显示的并不一样,同时发现这个字体的"font-family"属性为’PingFangSC-Regular-address’。继续分析

2021-12-03 13:52:28 5773 4

原创 python 爬虫 谷歌学术 js加密处理方法

现在正在学习对于js加密的网页,如何用爬虫获取我们想要的内容。这次的目标是获取js加密后的网址,在此记录下对于js的分析以及函数的跳转还原。目标网址:url='https://ac.scmor.com/'打开链接,开发者工具移到立即访问上,发现没有我们想要的网址,而是出现了一个onclik调用visit,传入一串字符串的函数。在来源中按住 ctrl+shift+f组合键 查找visit 找到一个可能是定义的函数,点进去看看。function visit(url) { var newTa

2021-11-27 20:49:05 1416 2

原创 python 爬虫 双城之战 m3u8下载

在阅读文章前,可以去了解下ts视频,m3u8是什么,不然可能会影响阅读英雄联盟的双城之战最近很火,尝试着在第三方视频网站下下载双层之战目标urlurl=https://www.315kc.com/dongman/yingxionglianmengshuangchengzhizhan1/2-1.html进入网页简单分析一下,打开开发者工具,目的在于获取m3u8资源的来源:于是在快速搜索中搜索m3u8:在js中匹配到一个url网址,这里我们可以先复制下来去网页看一看:https:\/\/new.

2021-11-23 20:23:43 1259 1

原创 爬虫 selenium 中cookie的读取 用以避免登录验证

在使用爬虫过程中,经常会遇到一些需要登录的网页,对于这种类型的网页 ,我们可以进行手动登录后对其cookie进行爬取保存,下一次访问时清除掉原有的cookie,使用我们保存了登录信息的cookie进行访问,就可以规避登录验证。以百度(https://www.baidu.com/)为例第一次登录 手动扫码登录from selenium import webdriverimport jsonimport timewb=webdriver.Chrome(r'chromedriver.exe')#需要

2020-10-31 12:35:42 298 3

原创 豆瓣影评爬取 python

爬取目标爬取前十条 该电影最热门的影评并一起保存在txt文本中目标网址https://movie.douban.com/subject/1292849/库函数import requestsimport refrom bs4 import BeautifulSoupimport timefrom selenium import webdriverfrom lxml import etreeimport os分析目标网址 发现可以用selenium自动化来实现点开折叠的影评 获取全

2020-08-25 16:11:39 423

原创 爬虫爬取壁纸清晰大图实战

爬虫爬取壁纸清晰大图实战**import osimport requestsimport reimport timefrom bs4 import BeautifulSoup#os库用于文件创建#request BeautifulSoup用于网页获取#re用于获取连接分析目标网址第一页:http://www.netbian.com/第二页http://www.netbian.com/index_2.htm第三页http://www.netbian.com/index_3.ht

2020-08-09 11:27:37 357 1

原创 python requests 读取url 输出中文乱码

最近在学习python爬虫的相关知识 但是时常发现requests.get(url)后 输出中文是乱码 <title>iP��ַ��ѯ--�ֻ������ѯ������ | ���������ѯ | iP��ַ�����ز�ѯ | ����֤������֤���߲�ѯ��</title> 发现可能是编码错误后 通过.encoding='utf-8’设置了编码格式但依然输出乱码通过https://blog.csdn.net/DCFANS/article/details

2020-07-25 11:51:50 2264 1

原创 Android Studio JDBC MySQL

0.仅仅只是记录下。我也是个小白。可能有很多问题也不知道。1.JDBC语句都得在线程中执行…………前辈们已经为我探好了路……当然线程一定要.start()来启动、2.JDBC语句需要导入jar包到app/lis下才行……最好用版本号低点……我用的5.1.43.后面就是重复语句了。。没啥了以添加数据为例(我是自己创建了一个thread)package com.example.myapplication111;import android.util.Log;import android.widge

2020-06-10 15:55:33 265

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除