一、selenium爬取动态网页
1、动态网页认知
- 爬虫其实就是在模仿浏览器的行为
- 应对要多次数据的交互模拟的网站,我们有时会遇到像淘宝这样的大型网站,对数据版权看得特别重的,它们的网站有大量的工程师和技术人员去维护,它们也可能在技术手段上采用多次交互数据包的方式来完成网站服务器与用户浏览器之间的交互。如果此时还采用传统的分析数据包的方式会比较的复杂,难度较高。
- 对于这类网页的爬取,我们的解决方案是: Selenium + Chrome驱动。
2、工具的介绍url编码与解码在线测试工具:http://tool.chinaz.com/tools/urlencode.aspx在线正则表达式测试工具:https://tool.oschina.net/regex
3、Selenium的认识一个Web自动化测试工具,最初是为了网站自动化测试而开发的;我们玩游戏有按键精灵; Selenium 也可以做类似的事情,但是它是在浏览器中做这样的事情。安装:pip install selenium然后就可以在Python中from selenium import webdriver来测试是否装好。
4、爬虫方案的选择对Selenium + Chrome驱动这个方案,从理论上来说,只要是用户能够访问的数据,都可以抓取到,但是,从时间、空间、效率上来说,这个方案有些缺陷,尤其是时间方面,可能需要多次尝试。因此,如果能够使用的get和post的地方,最好就不用selenium
二、爬虫案例分析
1、获取id或者xpath实现登陆
from selenium import webdriver from selenium.webdriver.common.action_chains import ActionChains import time browser = webdriver.Chrome() # 设置Chrome为selenium的浏览器驱动 # 打开浏览器实现登陆 def openbrowser(): # global browser url = "http://index.baidu.com/" # 百度指数的网站 browser.get(url) # 点击网页的登录按钮:在对应的元素那里右击检查(或审查元素),再右击Copy,最后Copy Xpath browser.find_element_by_xpath('//*[@id="home"]/div[1]/div[2]/div[1]/div[5]/span/span').click() time.sleep(3) # 自动化操作是很快的,但是操作再快,网络可能跟不上,可能页面还没加载完全,因此需要设定等待时间 # 浏览器登陆id测试 # 1)在用户名输入框点检查,就能找到对应的id为TANGRAM__PSP_4__userName # 然后在console控制台输入:document.getElementById("TANGRAM__PSP_4__userName").value = "XXXX" # 则就会自动填入账号XXXX # 2)密码同理,找到的id为:TANGRAM__PSP_4__password # 3)然后再找登陆按钮的id:TANGRAM__PSP_4__submit # 登陆按钮需要用click():document.getElementById("TANGRAM__PSP_4__submit").click() # 自动传入账号密码到输入框 account = "XXXX" passwd = "YYYY" try: browser.find_element_by_id("TANGRAM__PSP_4__userName").send_keys(account) browser.find_element_by_id("TANGRAM__PSP_4__password").send_keys(passwd) browser.find_element_by_id("TANGRAM__PSP_4__submit").click() except: browser.find_element_by_id("TANGRAM_12__password").send_keys(account) browser.find_element_by_id("TANGRAM_12__userName").send_keys(passwd) browser.find_element_by_id("TANGRAM_12__submit").click() time.sleep(3)
2、翻页处理
# 下一页(翻页)的处理 from selenium import webdriver import time cur_driver = webdriver.Chrome() def go_next_page(cur_driver): try: # 用xpath找到,然后获取href超链接,点击超链接 next_page = cur_driver.find_element_by_xpath("").get_attribute('href') cur_driver.get(next_page) # 转到该超链接的页面 time.sleep(3) return True except Exception as e: print(e) print("next page is not found!") return False
3、滚屏操作
# 滚屏操作:保证数据都加载完全 def scroll_to_bottom(): # 最后尝试50次滚屏到底部,参数可以自己调整 print("scroll down") for i in range(50): weibo_driver.excute_script('window.scrollTo(0,document.body.scrollHeight)') html = weibo_driver.page_source # 获取到网页源码 tr = etree.HTML(html) # 用xpath找到下一页的链接 next_page_url = tr.xpath("") if len(next_page_url) > 0: return next_page_url[0].get('href') # 有可能下一页的网页会加载失败 if len(re.findall("点击重新输入",html)) > 0: print("加载失败,请重新加载!") # 则就自动点击重新载入 weibo_driver.find_element_by_link_text("点击重新载入").click() time.sleep(2)
三、哈希hash算法与RSA加密
1、哈希算法
import hashlib # # HASH字符串:直接使用hashlib.方法 def hashStr(ss): h = hashlib.md5() # 实例化hash对象 h.update(ss.encode("utf-8")) # 获取数据 return h.hexdigest() # 开始hash # HASH文件:对文件做Hash算法 chunkSize = 4096 def hashFile(hashName): h = hashlib.sha256() # 实例化一个hash对象 with open(hashName,"rb") as f: # 用循环来读取全部数据 while True: chunk = f.read(chunkSize) if not chunk: break # 判断是否结尾,如果为空就跳出循环 h.update(chunk) return h.hexdigest() # 得到文件最终的hash值 if __name__ == "__main__": print(hashStr("hello world")) print(hashFile("note.txt"))
2、RSA加密
- RSA加密算法是一种非对称加密算法,加密算法不重要,秘钥才能保密。
- 秘钥:如果加解密用同一个秘钥,对称加密;如果加解密用两个不同的秘钥,非对称加密(有两个秘钥:公钥,私钥)
- 用公钥加密的数据需要使用私钥来解;用私钥加密的数据需要使用公钥来解;公钥可以随便给别人,私钥不能给
- HTTPS使用的是非对称加密:服务器、客户端、浏览器
- 通信的过程:服务器把数据用私钥加密,把加密之后的数据和公钥一起发给客户端;完成一次通信。
- 客户端把要发给服务器的数据用服务器所给的公钥加密,然后传给服务器;完成一次通信,服务器可以用私钥来解密。
n = p*q,当n是一个巨大的数时,理论上在有限的时间之内这个两个质数p,q是分解不出来。则p,q是私钥,n就是公钥
是不难吧 想要获取完整项目代码的 加群:1136192749