爬虫
文章平均质量分 58
weixin_65922074
这个作者很懒,什么都没留下…
展开
-
selenium的注意事项,问题点记录
python默认UTF-8可以不写,但是我在测试一些网页时,发现缺省时中文会乱码,加上encoding=‘UTF-8’后中文就能正常显示了。chrome_obj.switch_to.frame(chrome_obj.find_element_by_...('frame对象')有些js渲染的数据在获取的页面内容里找不到,则需要通过find_elements或者元素,然后再解析这些元素的文本或者属性。如果规定时间内,没有执行完当前行代码,到了设置的时间,也会执行下一行代码。......原创 2022-08-31 20:04:15 · 438 阅读 · 1 评论 -
爬虫 零碎记录 xpath 注意事项 text()[x]可以取下标
4.re.findall(),xpath() ,strip()去首尾空格,replace()字符串替换等,各种函数返回的都是新的对象,原对象对函数的调用不会更改原对象的内容。特殊情况:当xpath()得到的元素中含有特殊字符(目前遇到的比如\n换行符)时,需要将该元素用str()将etree对象转化成字符串 后再处理。必须要将函数的调用赋值给一个变量(可以是新的变量,也可以是自身,但是都必须要赋值,然后再调用这个赋值过的变量。xpath中的//表示跨节点,/表示不跨节点,元素之间的过渡。原创 2022-08-22 20:11:08 · 630 阅读 · 0 评论 -
json数据解析 jsonpath
python里的json数据解析处理 jsonpath的用法原创 2022-08-10 13:39:43 · 1097 阅读 · 0 评论 -
异步加载 XHR
这些得到的动态数据包,都存在于network-XHR里面。触发ajax异步加载后,XHR会多出来数据包,具体再分析。url没有发生改变,但是加载出来其他数据。如 鼠标的点击,鼠标的滑动等。原创 2022-08-08 14:32:21 · 212 阅读 · 0 评论 -
SSL报错 代理IP池
retry(stop_max_attempt_number=3) # 表示最大连接次数为3次。如果正常连接,response.text会返回代理IP地址信息 (不要用content返回)proxies字典中的键值-->协议://IP地址:端口号 冒号必须是英文状态下的冒号。在get或者post请求括号参数内添加字段timeout=XXX(XXX以秒为单位)proxies字典中的键名(协议头)-->需要跟请求的url协议头类型保持一致。retry是一个带参数的装饰器。...原创 2022-08-04 19:17:52 · 483 阅读 · 0 评论 -
爬虫 模拟登录 post请求 cookie session
爬虫 模拟登录 cookie post请求 session模拟登录原创 2022-07-31 19:36:34 · 980 阅读 · 0 评论 -
爬虫 requests User-Agent池 FakeUserAgent URL传参
爬虫 requests User-Agent池 FakeUserAgent URL传参原创 2022-07-26 10:03:55 · 303 阅读 · 0 评论