爬取微信电脑版朋友圈数据
1、引言
小屌丝:鱼哥,忙吗??
小鱼:忙!!
小屌丝:想问你件事。
小鱼:在忙,没时间!!
小屌丝:关于妹子的事~ ~
小鱼:不忙,妹子被欺负了?妹子下班晚不好打车?妹子还没吃夜宵???
小屌丝:我擦… 你真的是见色起意。
小鱼:没有的事,我这么正儿八经的人,怎么会呢。。。
小屌丝:正儿八经是真的, 但是人不人的,就不知道了。。。
小鱼:不扯,妹子咋的了,我这着急担心着呢…
小屌丝:就是我这不刚刚处了一个女CP嘛,然后我…就想时刻关注她的朋友圈动态,但是我又不能实时拿手机刷朋友圈,你懂得…
小鱼:这个… 有点… 不太…
小屌丝:我的CP还有个闺蜜,1.8大长腿,A4腰,关键还会跳踏踏舞…
小鱼:别说了,我能,我会,我行!!!
2、桌面图形界面工具介绍
一想到朋友圈,我们的第一印象就是在手机端看朋友圈,
但是最近电脑版WeChat,也可以看朋友圈了,
不知道各位小伙伴是否有注意到,反正对小鱼来说,这上班摸鱼又多了一个好方式!
之前我们爬手机端,一般都使用Appium来搞,
虽然爬取很容易,但是Appium的环境配置,确实不容易。
只有经历过的人,才知道其中的快乐…
如果有的小伙伴不了解Appium的话,可以看看小鱼的Appium系列博文,保证你"一战到底"。
从基础入门→框架搭建→源码实战,一个系列的!
小屌丝:鱼哥,其实你说的一点都没错,所以看看你有没有什么好点的法子,让我简单并快乐着。
小鱼:必须的, 今天我们就来用两个工具+15行代码,就搞定。
2.1 PyAutoGUI
小屌丝:鱼哥,PyAutoGUI是个啥嘞?
小鱼:那按键精灵知道不?
小屌丝:这个我知道, 这是一款能录制鼠标和键盘操作,然后还可以进行自动操作工具。
小鱼:对头,那PyAutoGUI的功能跟它类似的。
1、操作方式
PyAutoGUI 通过 Python 脚本,控制计算机的鼠标和键盘,以达到自动和桌面客户端程序进行交互操作的目的。
2、支持系统
支持Windows,Linux,macOS。
除了支持计算机的鼠标和键盘控制之外,还能提供简易的弹出框,并且支持进行截。
3、使用方法
先导入PyAutoGUI,然后就是各种骚操作
import pyautogui
各种操作如下:
- 通过 pyautogui.size() 获取屏幕的高度和宽度;
- 通过 pyautogui.position() 获取鼠标在屏幕上的坐标;
- 通过 pyautogui.moveTo(x, y) 移动鼠标到指定的坐标;
- 通过 pyautogui.click() 操纵鼠标单击;
- 通过 pyautogui.click(x, y) 操纵鼠标单击指定的坐标位置;
- 通过 pyautogui.doubleClick() 操纵鼠标双击;
- 通过 pyautogui.write() 执行键盘键的输入;
- 通过 pyautogui.press(‘xxx’) 按下指定的键名;
- 通过 pyautogui.keyDown(‘xxx’) 按住指定的键名;
- 通过 pyautogui.hotkey(‘xxx’, ‘xxx’) 执行热键操作;
- 通过 pyautogui.keyUp(‘xxx’) 松开指定的键名;
上面就列举了常用的,也是足够我们日常使用了。
小屌丝:这么厉害嘛,我喜欢这款,
小鱼:别着急下定论,虽然这款很nice,但是也有美中不足的地方。
PyAutoGUI 只能机械地对鼠标键盘进行操作,而不能识别或分析程序或计算机桌面的情况,也不能获取程序内的所有内容。
小屌丝:咋还这样啊,那有没更好一点的工具啊,
小鱼:接着往下看。
2.2 PyWinAuto
虽然PyAutoGUI优缺点,但是没关系,PyWinAuto就是最好的补救工具了,
PyAutoGUI与PyWinAuto 是不是好基友我不知道,但是一定是好CP。
PyWinAuto简介:
PyWinAuto 是一组用于自动化Microsoft Windows GUI的python模块,所以 PyWinAuto 只能用于 Windows 环境下的桌面客户端程序。
PyWinAuto 通过「Win32 API」和「MS UI Automation」来识别、判断和获取程序的属性,并依赖上述两种技术实现对程序控件的控制。
同时,PyWinAuto 也提供了键盘和鼠标的控制操作,在某些控件无法进行操作的情况下,可以继续借助鼠标键盘来完成操作。
PyWinAuto使用:
因为每个工具都有它的独特性,所以,相对于PyAutoGui,则PyWinAuto的使用就有点点复杂化。
我们来看看。
安装
pip install pywinAuto
启动
from pywinauto.application import Application
#启动notepad
app = Application(backend="uia").start('notepad.exe')
常规操作
# -*- coding:utf-8 -*-
# @Time : 2021-08-19
# @Author : carl_DJ
from pywinauto.application import Application
#启动notepad
app = Application(backend="uia").start('notepad.exe')
#获取主窗口
dlw = app['窗口名称']
#获取主程序窗口内控件
but = dlw['Button']
#对控件按钮进行操作
but.click()
小屌丝:鱼哥,我想问一下,我们怎么能知道程序内各个控件的结构呢?
小鱼:两种方法获得,如下:
- 方法一:使用控件的print_control_identifiers() 方法或 dump_tree() 方法,输出控件下所有控件的信息。
- 方法二:使用 PyWinAuto 推荐的几个第三方程序,如:Spy++,Inspect.exe等,先对程序的控件结构进行获取,在编写代码。
3、代码实战
知道了PyWinAuto 和 PyAutoGui这两个工具的使用方法,
接下来,就到了激动人心的环节:爬取朋友圈数据。
老规矩,直接上代码:
# -*- coding:utf-8 -*-
import psutil
import pywinauto
from pywinauto.application import Application
'''
psutil 用于获取微信电脑版的进程信息
pywinauto 用于自动化控制微信电脑版
'''
def getWechat():
#初始化默认进程
PID = 0
#我们把进程ID来提供给PyWinAuto ,以便于链接微信电脑版
for proc in psutil.process_iter():
try:
pinfo = proc.as_dict(attrs=['pid','name'])
except psutil.NoSuchProcess:
pass
else:
if 'Wechat.exe' == pinfo['name']:
PID = pinfo['pid']
#PyWinAuto实例化并启动应用
app = Application(backend='uia').connect(process= PID)
#控制微信电脑版,把朋友圈打开
win = app['微信']
pyq_but = win.child_window(title = '朋友圈',control_type = "Button")
pyq_but.draw_outline()
cords = pyq_but.rectangle()
#点击朋友圈按钮
pywinauto.mouse.click(button = 'left',coords = (cords.left + 10,cords.top + 10))
pyq_win = app['朋友圈']
pyq_win.drav_outline()
#获取朋友窗口里面各个控件结构
print(f'打印朋友圈控件结构:{pyq_win.dump_tree}')
if __name__ == '__main__':
getWechat()
由于隐私性,小鱼就截取一段的内容,展示一下。
我不会把朋友圈的妹子信息展示出来的。