知识点
当我们无法获得网页源代码的要考虑的几点
- 添加表头headers user-agent host、referer、origin
- 添加cookies缓存数据
- 通过会话获取网页代码
- 动态的获取网页的动态数据 验证码信息 验证图片 二维码登陆等
具体可参考request高级应用 - session
import requests
import re
from pyquery import PyQuery as pq
# 全局变量 session的对象
s = requests.Session()
def login():
# 登录之前后去hash值
formhash, loginhash = get_hash()
# 登陆的requests url
url = "http://www.lxwc.com.cn/member.php?mod=logging&action=login&loginsubmit=yes&handlekey=login&loginhash=Lc6gT&inajax=1"
main_url = 'http://www.lxwc.com.cn/'
# 登陆的表单数据
formdata = {
"formhash": formhash,
"referer": "http://www.lxwc.com.cn/",
"loginfield": "username",
"username": "i小艾",
"password": "123456aA",
"questionid": 0,
"answer": ""
}
#添加表头
# head = {
# 'Host': 'www.lxwc.com.cn'
# 'Referer': 'http://www.lxwc.com.cn/'
# 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'
# }
# # 网页缓存 这种方法可以自定义Cookies,也可添加到head中
# cookies = {
# 'w2hd_8acf_saltkey':'eDK9FV9O',
# 'w2hd_8acf_lastvisit':'1557725902',
# 'w2hd_8acf_sid':'Yj6MvU;
# 'w2hd_8acf_sendmail':'1',
# 'Hm_lvt_696f676523c9176b65220027136d9a6f':'1557729503',
# 'Hm_lpvt_696f676523c9176b65220027136d9a6f':'1557729503',
# 'w2hd_8acf_lastact':'1557729610%09plugin.php%09',
# }
# 普通形式的网络访问
# r = requests.post(url, datda=formdata)
# 网络请求带headers的信息
# r = requests.post(url, datda=formdata, headers=head)
# r = requests.post(url, datda=formdata, headers=head, Cookies=cookies)
# 会话形式的网络访问
r = s.post(url, data=formdata)
rs = s.get(main_url)
print(rs.text)
def get_hash():
url = "http://www.lxwc.com.cn/member.php?mod=logging&action=login&infloat=yes&handlekey=login&inajax=1&ajaxtarget=fwin_content_login"
# 普通形式的网络请求
# r = requests.get(url)
# 会话形式的网络请求
r = s.get(url)
# print(r.text)
xml = r.text
# 网页源代码
html = xml[55:-10]
# 解析网页
doc = pq(html)
# 根据选择器找制定元素
# 使用val方法获取value
# text():获取元素文本
# attr(属性名称):获取元素的属性
# jquery选择器
# #loginform_LlRMZ > div > input[type="hidden"]:nth-child(1)
formhash = doc('form > div > input[type="hidden"]:nth-child(1)').val()
# 根据选择器找指定元素
# 使用attr()方法获取action属性的值
# 切片最后5个字符
loginhash = doc("form").attr("action")[-5:]
return formhash, loginhash
login()