- 博客(12)
- 收藏
- 关注
原创 selenium 无原图滑动验证码解决
selenium 无原图滑动验证码解决提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录selenium 无原图滑动验证码解决前言1. selenium获取坐标元素2.验证码处理总结前言最近在做电商爬虫, 电商爬虫呢 有一个很重要的反扒措施。 就是登录, 而登录最常见的就是滑动验证码。滑动验证码又可以简单分为两种:通过调整 js可以获取到验证码原图这种方式 虽然我没做过, 思路还是比较简单的, 通过遍历比较两种图片的像素点, 得到不一样的地方 就可以确
2020-10-21 11:22:55 2210
原创 python + snownlp 正负面分析
正负面分析背景: 需要对新闻,评论做正负面分析步骤:1.安装snownlp pip install snownlp2. 训练或导入模型训练from snownlp import SnowNLP# 加载情感分析模块from snownlp import sentimenttext = '大麦多开一个口ok????正在现场俩口闲死 ' # 文本s = SnowNLP...
2019-06-29 12:13:39 9180 8
原创 如何免密登陆多台服务器 以及 服务器设置别名
主机远程登陆服务器 常见的一种方法是:1. 在主机命令端口运行: ssh-keygen -t rsa 一路回车确定 不需要别的操作目的是为了产生密钥,同时呢 在 /root/.ssh 文件夹下产生id_rsa和 id_rsa.pub 两个文件2.将 生成的公钥复制到服务器上在主机命令端口运行: ssh-copy-id -i ~/.ssh/id_rsa.pub 服务器用户名@服务...
2018-12-28 16:25:51 249
原创 那些年我用过的app爬虫常用抓包软件
app爬虫抓包常用软件:1.fiddler: 常用抓包软件之一,因为界面太过复杂,我不常用2.Charles:因为整体页面看着比较有规律性,功能相对来说还是比较齐全的,基本没满足日常抓包需求,所以常用3.mitmdump:属于**motmproxy(不会操作)**的一个模块,命令行窗口形式。两种用途跟手机配合,实时抓取手机发送的请求, 可以跟appium连用,appium操作手...
2018-12-05 16:58:22 6090
原创 python 关于时间函数之间的转换
在工作中头的时候碰见时间之间的比较,看时间戳和datetime格式的时间比较别扭,想看字符串。。时间戳与字符串之间的转换大部分时间戳都是以秒为单位的 10位数字举个例子import time# 将时间戳转换为字符串# 获取当前时间a = int(time.time())print(a, type(a)) # 1543995635timeArray = time.loca...
2018-12-05 16:05:43 333
原创 python+ubuntu 怎么做自动定时爬虫
爬虫工程师在工作时,有时候需要做到定时爬虫,下面是代码写好之后,如何添加定时任务的过程(无论是requests还是scrapy框架爬虫,都可以使用)1.在当前目录下增加一个可执行的脚本requests在当前目录下, scrapy在配置文件scrapy.cfg目录下增加脚本内容如下;脚本内容如下;#!/bin/sh export PATH=$PATH:/home/python/.l...
2018-12-05 15:23:52 445
原创 Python 通过代码删除进程
项目场景:在服务器上运行selenium+ chromedriver, selenium退出之后, chromedriver无法退出, 每次启动selenium都会 启动一次chromedriver, 最终导致 服务器内存饱满解决方案:'''查看 chrome 进程是否存在 存在即 关闭进程'''import osimport sysimport subprocessdef get_process_id(name): child = subprocess.
2020-11-07 14:18:55 783
原创 python 日志设置
直接怼代码了import loggingfrom logging.config import dictConfigimport osimport timecur_path = os.path.dirname(os.path.realpath(__file__)) # log_path是存放日志的路径# 当前目录下的logs文件夹log_path = os.path.join(c...
2020-04-15 18:12:15 435
原创 GlidedSKY挑战之五:CSS反爬
介绍:网站:http://www.glidedsky.com/虽然几个挑战没写完,简单的看了一下,爬虫工作过程中一些问题在这里都有展示,是一个可以检验爬虫工作者的能力的网站,跟玄幻小说中挑战塔一样。说一下,第5个挑战 css反爬: 通过css修改了样式,在页面上看到的数字展示跟源码中的展示不一样直接上代码了。。。import refrom operator import itemg...
2019-09-16 16:20:33 842 3
原创 redis有序集合报错 ERR value is not a valid float
redis有序集合报错 ERR value is not a valid float最近在写崔大神的代理池模块,看着挺简单的,单个看基本都会,组合起来,看不懂。。。。。写完之后运行下吧,运行到.... # 查询redis库中 有序集合 REDIS_KEY 中是否包含proxyif not self.db.zscore(REDIS_KEY, proxy): # print(...
2019-08-20 15:37:47 10600 2
原创 阿里云服务器设置远程链接(详情)
在网上搜了不少教程,都是各有各的理解。我天生命运坎坷,遇见的问题总比别人多(或许是我操作不对)。接下来描述一下我是怎么设置的:如何安装数据库就不说了,这个教程很多。1.设置一个远程登录的账号在设置远程登录时尽量少使用root账号进行操作1.登录服务器mysql2.创建用户远程登录的用户查看所有表;进入到mysql库中查看所有表(show tables;),修改用户表登录...
2019-03-21 18:22:09 1079
原创 python 数据清洗(字符串)
去除字符串两边的字符:str.strip() 括号内写想要去除的内容,默认为空格,常用于去除换行,空格去除字符串中的字符: str.replace('想要去掉的字符’, ‘替换字符’) 将字符串内部的数据进行替换,可以去除内部空格str.replace(’ ’, ‘’) 去重字符串中所有空格...
2018-12-05 16:15:11 1448
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人