自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 详细介绍微信公众号python爬虫

使用到的技术:python3,selenium,requests最近接到新项目需要爬取微信公众号的数据,接下来和大家分享一下笔者在网上也有看到用**搜狗微信的api爬取数据,但是要想根据公众号爬取它所有的文章,发现行不通它只有最近的文章,也就是说想获取他所有的文章,发现行不通(可能笔者资历尚浅,没找到,欢迎各位同学帮忙指正),搜文章的话,是这种例如想爬取该公众号所有文章,还是不行。也有使用抓包工具**抓取app端的数据接口,这个是可行的,但是抓包工具的配置和网页的数据接口的分析又很复杂,笔者这里

2020-07-09 16:50:10 790 2

原创 爬取西瓜视频

需求:获取西瓜视频的链接首先在拿到这个需求的时候,开始各种尝试获取页面,直接携带 header 获取,采用selenium模拟浏览器的请求,发现都不好用好了,不废话了,分析页面url =添加链接描述查看源代码点击network,产看name里面的元素,滑动页面在这里,看到了 :path这个路径,这是一个数据访问的接口,拼接上https://www.ixigua.com+(path),...

2019-12-14 08:44:34 2321 4

原创 python爬虫遇到requests.exceptions.ConnectionError: HTTPSConnectionPool(host=...............port=443)解决方法

1.首先检查是否安装cryptography,pyOpenSSL,certifi如果未安装,pip install cryptographypip install pyOpenSSLpip install certifi2.如果未解决,在网页请求中加入:verify=False如下requests.get(url, headers=headers, timeout=30,verify=False)3 还未解决?可能request 连接数过多在header中不使用持久连接head

2020-07-14 21:34:56 1323

原创 Linux常用的命令

cd /home 切到home目录cd …返回上一级mkdir 创建文件夹rm -f file 删除文件rmdir 删除文件夹pwd 当前目录free -m查看内存ps -ef|grep ** 查看制定进程ps -ef|grep ** -C 查看进程个数df -h 查看磁盘空间大小df -l磁盘使用情况reboot 重启shutdown -h now 立刻关机init 0 关机init 6 重启...

2020-07-12 20:57:02 39

原创 python中的锁(GIL,同步锁,死锁,递归锁)

GIL(全局解释器锁)同一个进程只要有一个线程获得了cpu的使用权限,那么其他线程就必须等待该线程cpu使用权限结束后才能使用cpu优点:避免了大量的解锁,加锁,保持数据的完整性和状态同步缺点:只能并发,不能并行此状态下,线程如何进行切换?GIL会根据执行的字节码数和时间片两个要点1.遇到IO操作主动释放2.一个专门的计数tickes,数值达到100释放3.执行超时同步锁同一时刻的一个进程下的一个线程只能使用一个cpu,确保该线程下的程序被cpu执行原因:可能会遇到IO操作,cpu切到

2020-07-10 10:21:36 81

原创 python的魔法方法

_inti_类的初始化,静态方法_new_对象实例化的第一个调用,只取cls,传递给init,动态_del_对象的销毁器new和init的区别 class Person(object): """Silly Person""" def __new__(cls, name, age): print '__new__ called.' return super(Person, cls).__new__(cls, name, age) de

2020-07-09 17:42:57 85

原创 冒泡,快排,插排,选择排序

字典根据键排序sorted(dict.items(,key=lambda dict:dict[0]))for k in sorted(dict.keys()): print(k,dict[k])字典根据值排序sorted(dict.items(,key=lambda dict:dict[1]))for k in sorted(dict.values()): prin...

2019-12-17 18:46:05 75

原创 python之使用pandas处理excel数据

需求:筛选出csv文件中的目标数据,拿出目标行,并把它存储在另一个csv文件里#读文件,df = pd.read_csv('##########.csv')#读取csv文件的行数le = df.reindex()columns = df.columns.values # 获取表头for i in range(len(le)): res = df['源mac'][i] ...

2019-12-16 15:46:33 135

原创 IP池,python爬虫

分享一下自己在做IP池中遇到的问题,代码奉上def ip_crow(lock, queue): url = "https://www.xicidaili.com/nn" lock.acquire() response = requests.get(url, headers=headers) lock.release() html = response.te...

2019-12-13 09:00:47 85

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除