JS反爬之某网站portal-sign验证参数加密!也不难嘛!

一、selenium爬取动态网页

1、动态网页认知

  • 爬虫其实就是在模仿浏览器的行为
  • 应对要多次数据的交互模拟的网站,我们有时会遇到像淘宝这样的大型网站,对数据版权看得特别重的,它们的网站有大量的工程师和技术人员去维护,它们也可能在技术手段上采用多次交互数据包的方式来完成网站服务器与用户浏览器之间的交互。如果此时还采用传统的分析数据包的方式会比较的复杂,难度较高。
  • 对于这类网页的爬取,我们的解决方案是: Selenium + Chrome驱动。

2、工具的介绍url编码与解码在线测试工具:http://tool.chinaz.com/tools/urlencode.aspx在线正则表达式测试工具:https://tool.oschina.net/regex

3、Selenium的认识一个Web自动化测试工具,最初是为了网站自动化测试而开发的;我们玩游戏有按键精灵; Selenium 也可以做类似的事情,但是它是在浏览器中做这样的事情。安装:pip install selenium然后就可以在Python中from selenium import webdriver来测试是否装好。

4、爬虫方案的选择对Selenium + Chrome驱动这个方案,从理论上来说,只要是用户能够访问的数据,都可以抓取到,但是,从时间、空间、效率上来说,这个方案有些缺陷,尤其是时间方面,可能需要多次尝试。因此,如果能够使用的get和post的地方,最好就不用selenium

二、爬虫案例分析

1、获取id或者xpath实现登陆

 from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
import time
browser = webdriver.Chrome()  # 设置Chrome为selenium的浏览器驱动

# 打开浏览器实现登陆
def openbrowser():
    # global browser
    url = "http://index.baidu.com/"  # 百度指数的网站
    browser.get(url)
    # 点击网页的登录按钮:在对应的元素那里右击检查(或审查元素),再右击Copy,最后Copy Xpath            
    browser.find_element_by_xpath('//*[@id="home"]/div[1]/div[2]/div[1]/div[5]/span/span').click()
    time.sleep(3)
    # 自动化操作是很快的,但是操作再快,网络可能跟不上,可能页面还没加载完全,因此需要设定等待时间

    # 浏览器登陆id测试
    # 1)在用户名输入框点检查,就能找到对应的id为TANGRAM__PSP_4__userName
    # 然后在console控制台输入:document.getElementById("TANGRAM__PSP_4__userName").value = "XXXX"
    # 则就会自动填入账号XXXX
    # 2)密码同理,找到的id为:TANGRAM__PSP_4__password
    # 3)然后再找登陆按钮的id:TANGRAM__PSP_4__submit
    # 登陆按钮需要用click():document.getElementById("TANGRAM__PSP_4__submit").click()

    # 自动传入账号密码到输入框
    account = "XXXX"
    passwd = "YYYY"
    try:
        browser.find_element_by_id("TANGRAM__PSP_4__userName").send_keys(account)
        browser.find_element_by_id("TANGRAM__PSP_4__password").send_keys(passwd)
        browser.find_element_by_id("TANGRAM__PSP_4__submit").click()
    except:
        browser.find_element_by_id("TANGRAM_12__password").send_keys(account)
        browser.find_element_by_id("TANGRAM_12__userName").send_keys(passwd)
        browser.find_element_by_id("TANGRAM_12__submit").click()
    time.sleep(3)

2、翻页处理

# 下一页(翻页)的处理
from selenium import webdriver
import time
cur_driver = webdriver.Chrome()
def go_next_page(cur_driver):
    try:
        # 用xpath找到,然后获取href超链接,点击超链接
        next_page = cur_driver.find_element_by_xpath("").get_attribute('href')
        cur_driver.get(next_page)  # 转到该超链接的页面
        time.sleep(3)
        return True
    except Exception as e:
        print(e)
        print("next page is not found!")
        return False

3、滚屏操作

# 滚屏操作:保证数据都加载完全
def scroll_to_bottom():
    # 最后尝试50次滚屏到底部,参数可以自己调整
    print("scroll down")
    for i in range(50):
        weibo_driver.excute_script('window.scrollTo(0,document.body.scrollHeight)')
        html = weibo_driver.page_source  # 获取到网页源码
        tr = etree.HTML(html)
        # 用xpath找到下一页的链接
        next_page_url = tr.xpath("")
        if len(next_page_url) > 0:
            return next_page_url[0].get('href')
        # 有可能下一页的网页会加载失败
        if len(re.findall("点击重新输入",html)) > 0:
            print("加载失败,请重新加载!")
            # 则就自动点击重新载入
            weibo_driver.find_element_by_link_text("点击重新载入").click()
        time.sleep(2)

三、哈希hash算法与RSA加密

1、哈希算法

import hashlib
# # HASH字符串:直接使用hashlib.方法
def hashStr(ss):
    h = hashlib.md5()  # 实例化hash对象
    h.update(ss.encode("utf-8"))  # 获取数据
    return h.hexdigest()  # 开始hash

# HASH文件:对文件做Hash算法
chunkSize = 4096
def hashFile(hashName):
    h = hashlib.sha256()  # 实例化一个hash对象
    with open(hashName,"rb") as f:
        # 用循环来读取全部数据
        while True:
            chunk = f.read(chunkSize)
            if not chunk:
                break  # 判断是否结尾,如果为空就跳出循环
            h.update(chunk)
    return h.hexdigest()  # 得到文件最终的hash值

if __name__  ==  "__main__":
    print(hashStr("hello world"))
    print(hashFile("note.txt"))

2、RSA加密

  • RSA加密算法是一种非对称加密算法,加密算法不重要,秘钥才能保密。
  • 秘钥:如果加解密用同一个秘钥,对称加密;如果加解密用两个不同的秘钥,非对称加密(有两个秘钥:公钥,私钥)
  • 用公钥加密的数据需要使用私钥来解;用私钥加密的数据需要使用公钥来解;公钥可以随便给别人,私钥不能给
  • HTTPS使用的是非对称加密:服务器、客户端、浏览器
  • 通信的过程:服务器把数据用私钥加密,把加密之后的数据和公钥一起发给客户端;完成一次通信。
  • 客户端把要发给服务器的数据用服务器所给的公钥加密,然后传给服务器;完成一次通信,服务器可以用私钥来解密。
    n = p*q,当n是一个巨大的数时,理论上在有限的时间之内这个两个质数p,q是分解不出来。则p,q是私钥,n就是公钥

是不难吧  想要获取完整项目代码的 加群:1136192749

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
资源包主要包含以下内容: ASP项目源码:每个资源包中都包含完整的ASP项目源码,这些源码采用了经典的ASP技术开发,结构清晰、注释详细,帮助用户轻松理解整个项目的逻辑和实现方式。通过这些源码,用户可以学习到ASP的基本语法、服务器端脚本编写方法、数据库操作、用户权限管理等关键技术。 数据库设计文件:为了方便用户更好地理解系统的后台逻辑,每个项目中都附带了完整的数据库设计文件。这些文件通常包括数据库结构图、数据表设计文档,以及示例数据SQL脚本。用户可以通过这些文件快速搭建项目所需的数据库环境,并了解各个数据表之间的关系和作用。 详细的开发文档:每个资源包都附有详细的开发文档,文档内容包括项目背景介绍、功能模块说明、系统流程图、用户界面设计以及关键代码解析等。这些文档为用户提供了深入的学习材料,使得即便是从零开始的开发者也能逐步掌握项目开发的全过程。 项目演示与使用指南:为帮助用户更好地理解和使用这些ASP项目,每个资源包中都包含项目的演示文件和使用指南。演示文件通常以视频或图文形式展示项目的主要功能和操作流程,使用指南则详细说明了如何配置开发环境、部署项目以及常见问题的解决方法。 毕业设计参考:对于正在准备毕业设计的学生来说,这些资源包是绝佳的参考材料。每个项目不仅功能完善、结构清晰,还符合常见的毕业设计要求和标准。通过这些项目,学生可以学习到如何从零开始构建一个完整的Web系统,并积累丰富的项目经验。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值