Python网络爬虫实战：利用 Python & ADB & 人脸识别实现自动给抖音漂亮小姐姐视频点赞

最新推荐文章于 2024-08-02 00:14:23 发布

机灵鹤

最新推荐文章于 2024-08-02 00:14:23 发布

阅读量3.4k

点赞数 9

分类专栏： Python 网络爬虫实战文章标签：爬虫抖音 Python

本文链接：https://blog.csdn.net/wenxuhonghe/article/details/102717190

版权

Python 网络爬虫实战专栏收录该内容

15 篇文章 155 订阅

订阅专栏

这只爬虫做了些什么事儿呢？

通过 ADB 控制你的手机，帮你自动刷抖音
调用百度人脸识别的接口，给视频画面中出现的小姐姐打分
自动给颜值 70 以上的小姐姐的视频点赞

有趣的是，根据抖音的推荐算法，连着刷几天之后，抖音里给你推荐的全是漂亮小姐姐了。

0. 成果展示

先演示一下效果。

连接手机（手机要允许ADB调试），运行爬虫程序，程序会自动打开抖音APP，自动寻找漂亮的小姐姐啦。

有趣的是，根据抖音的推荐算法，连着刷几天之后，抖音里给你推荐的全是漂亮小姐姐了。

刚开始刷的时候，可能几十条里都没有一个漂亮小姐姐，而刷几天之后，基本上刷到的每条视频里都是漂亮小姐姐。

看，这是我刷了三天的 “成果”，断断续续刷了三天时间，已经 “点赞” 了两百多条漂亮小姐姐的视频。

咱有一说一啊，先不管是不是因为抖音的美颜滤镜功能强大，单纯从爬虫爬到的视频来看，这些小姐姐是真的好看，结果还是令人满意的。

下面这个是抖音里检测到漂亮小姐姐的截图画面，本来这是作为临时文件，人脸检测完即删除的，我看着好看，就给留了下来。

这个爬虫程序大概就是这样，下面详细讲解一下，这个爬虫是怎么做出来的。

1. 基础准备

这个爬虫需要用到三个东西。

Python 环境，爬虫程序是用 Python 写的，肯定要先配置好 Python 的环境啊。没有配好的自行去安装一下 Anaconda。此外，还需要安装一些必要的库，如 requests，urllib，PIL等。
ADB 环境，我们的爬虫需要通过 ADB 命令对手机进行操作，实现自动刷抖音，自动点赞的功能。安装方法自行百度。
人脸识别API，我这里用的是百度AI的人脸识别接口，大家需要自行注册一个百度AI 开放平台的账号，然后创建一个人脸识别的应用，然后将 appid，api_key，secret_key 三个参数填到爬虫代码这儿即可。

这里简单对 ADB 介绍一下。

ADB 的全称为 Android Debug Bridge，就是起到了调试桥的作用，用这个可以很方便的对安卓应用进行调试。

简单点说，就是你可以用这个工具来操作你的手机，它可以完成你在手机上能做的任何操作。

比如说安装/卸载/打开/关闭手机APP，滑动屏幕，点击，长按等等。更复杂的操作也能做，我们这里就不讲了，因为我们的这个抖音爬虫用到的 ADB 指令基本也就这些了。

a. ADB 启动应用

只需要知道应用的 package_name 和 activity_name，然后调用下面的 adb 指令，即可打开相应的应用

adb shell am start -n [package_name] [activity_name]

以抖音 APP 为例，它的 package_name 和 activity_name 如下。

# 抖音App的应用包名和初始Activity
package_name = 'com.ss.android.ugc.aweme'
activity_name = 'com.ss.android.ugc.aweme.splash.SplashActivity'

所以在命令行中运行下面的指令，即可打开手机中的抖音APP。

adb shell am start -n com.ss.android.ugc.aweme com.ss.android.ugc.aweme.splash.SplashActivity

b. ADB 点击屏幕

在命令行中运行下面指令，即可实现手机屏幕的点击。其中 1330 1750 是点击的 x y坐标。

adb shell input tap 1330 1750

以此爬虫里的抖音点赞为例，我只需要记录下抖音app中，点赞按钮对应的屏幕坐标，然后调用这句指令，即可完成自动点赞。

c. ADB 滑动屏幕

在命令行中运行下面指令，实现的是手机屏幕的滑动操作。其中有 5 个参数。这五个数字分别表示的是，滑动起始点的 x y 坐标，滑动终止点的 x y 坐标，滑动时长。

adb shell input swipe 900 1400 400 1400 100

比如上面这句指令表示的就是，从坐标（900，1400）的点，滑动到坐标（400，1400）的点，滑动过程 100 毫秒。

其实，这句指令稍微改一改，把起始坐标和终止坐标设为一致，滑动时长设长一些，滑动操作就变成了 “长按屏幕” 操作了。

基本准备工作也差不多就这些了，下面讲一下爬虫程序的整体思路吧。

2. 爬虫整体思路

如图所示，爬虫的整个爬取思路如下。

首先启动抖音 APP，等第一个视频加载出来播放之后，截取屏幕画面，调用百度 AI 的人脸识别接口进行人脸检测和评分。

如果画面中检测到颜值评分70分以上，且性别为女的人脸，则点击屏幕中的”点赞“按钮，然后上滑播放下一条视频。

如果画面中中没有出现人脸，或者性别为男，或者颜值不足70，则继续截图检测，直到视频播放结束，或者找到满足条件的人脸为止，然后上滑播放下一条视频。

为了尽可能地不错过有漂亮小姐姐的抖音，每条视频中会截取 4 - 5 张图片进行检测，只要有一张截图中有高颜值的小姐姐，那么我们就对这个视频进行点赞。如果这样都检测不出来，只能说小姐姐藏得太深，或者漂亮的不够明显了。

大概思路就是这样，下面我们就来动手完成爬虫吧。

3. 动手撸码写爬虫

由于爬虫还是稍微有点大，所以我拆成三个部分来写。人脸识别部分，ADB 控制部分，和爬虫主逻辑部分。

（1）人脸识别部分

这部分用了调用了百度AI 的人脸识别接口，需要将你自己申请的 appid，api_key，secret_key 三个参数填到代码里。

import base64
import urllib
import json
import requests
import sys

appid = '填写你申请的 appid'
api_key = '填写你申请的 api_key'
secret_key = '填写你申请的 secret_key'

这部分的代码主要包括四个函数，包括

get_access_token 函数，用来获取人脸识别接口必须的参数 access_token。
identify_faces 函数和 parse_face_pic 函数，这两个函数主要是用来将图片上传，调用人脸识别接口进行人脸识别，然后返回识别出来的人脸列表。
analysis_face 函数，主要作用是解析前面两个函数返回的人脸列表，从而判断图片中是否有漂亮小姐姐。

def get_access_token():
    """
      获取 access_token 有效期一般有一个月
    """
    client_id = api_key  
    client_secret = secret_key  
    auth_url = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=' + client_id + '&client_secret=' + client_secret
    header_dict = 
    {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Trident/7.0; rv:11.0) like Gecko',
        "Content-Type": "application/json"
    }

    # 请求获取到token的接口
    response_at = requests.get(auth_url, headers=header_dict)
    json_result = json.loads(response_at.text)
    access_token = json_result['access_token']
    return access_token

def identify_faces(pic_url, pic_type, url_fi):
    """
        调用人脸识别的接口，返回识别到的人脸列表
    """
    headers = 
    {
        'Content-Type': 'application/json; charset=UTF-8'
    }

    if pic_type == TYPE_IMAGE_NETWORK:
        image = pic_url
        image_type = 'URL'
    else:
        with open(pic_url, 'rb') as file:
            image = base64.b64encode(file.read())
        image_type = 'BASE64'

    post_data = 
    {
        'image': image,
        'image_type': image_type,
        'face_field': 'facetype,gender,age,beauty',  # expression,faceshape,landmark,race,quality,glasses
        'max_face_num': 2
    }

    response_fi = requests.post(url_fi, headers=headers, data=post_data)
    json_fi_result = json.loads(response_fi.text)

    # 如果人脸识别成功，返回人脸列表，否则返回None
    if not json_fi_result or json_fi_result['error_msg'] != 'SUCCESS':
        return None
    else:
        return json_fi_result['result']['face_list']

def parse_face_pic(pic_url, pic_type, access_token):
    """
        人脸识别，返回人脸列表
    """
    url_fi = 'https://aip.baidubce.com/rest/2.0/face/v3/detect?access_token=' + access_token

    # 调用identify_faces，获取人脸列表
    json_faces = identify_faces(pic_url, pic_type, url_fi)

    if not json_faces:
        return None
    else:
        return json_faces
    
def analysis_face(face_list):
    """
        解析人脸识别结果，判断颜值是否达标
        条件：性别女，颜值大于等于 70
    """
    # 是否能找到漂亮小姐姐
    find_plxjj = False
    if face_list:
        for face in face_list:
            # 判断是男、女
            if face['gender']['type'] == 'female':
                age = face['age']
                beauty = face['beauty']

                if beauty >= 70:
                    print('发现一个 ' + str(age) + ' 岁的美女，颜值为:%d，满足条件！' % beauty)
                    find_plxjj= True
                    break
                else:
                    print('发现一个 ' + str(age) + ' 岁的女生，颜值为:%d,不及格，继续~' % beauty)
                    continue

    return find_plxjj

（2）ADB 控制部分

ADB 控制部分，大概思路就是通过python中的 os 库执行 adb 指令，来对手机进行操作。

主要包括四个函数：

start_my_app 函数，用来启动抖音 APP。
save_video_met 函数，点击 ”点赞“ 按钮。在检测到漂亮小姐姐之后调用。
play_next_video 函数，向上滑动屏幕，播放下一个视频。
get_screen_shot_part_img 函数，用来截取屏幕图像，保存到电脑中，以遍后续人脸识别。

import os
from PIL import Image

# 抖音App的应用包名和初始Activity
package_name = 'com.ss.android.ugc.aweme'
activity_name = 'com.ss.android.ugc.aweme.splash.SplashActivity'

def start_my_app(package_name, activity_name):
    # 打开 Android 应用
    os.popen('adb shell am start -n %s/%s' % (package_name, activity_name))
    
def save_video_met(screen_name, find_girl_num):
    # 保存截图
    img = Image.open(screen_name).convert('RGB')
    img.save("漂亮的小姐姐/DYGirl_%d.jpg" % find_girl_num)
    # 给视频点赞
    os.system("adb shell input tap 1330 1750")
    
def play_next_video():
    # 向上划屏幕，播放下一段视频
    os.system("adb shell input swipe 540 1300 540 500 100")

def get_screen_shot_part_img(image_name):
    # 截图
    os.system("adb shell /system/bin/screencap -p /sdcard/screenshot.jpg")
    os.system("adb pull /sdcard/screenshot.jpg %s" % image_name)
    # 打开图片
    img = Image.open(image_name).convert('RGB')
    # 图片的原宽、高
    w, h = img.size
    # 截取部分，去掉其头像、其他内容杂乱元素
    img = img.crop((0, 400, 1200, 2750))
    img.thumbnail((int(w / 1.5), int(h / 1.5)))
    # 保存到本地
    img.save(image_name)
    return image_name

这些函数中的坐标是根据我手机的屏幕坐标写的（华为 Mate 20 Pro），其他型号手机的同学，可以根据自己手机屏幕的分辨率，对这些参数进行调整。

修改坐标的方法我也大概说一下，在你手机的设置中，找到开发人员选项，然后将指针位置这个打开，然后你就可以看到你点击到屏幕的位置了，顶部也会显示你点击的位置坐标。

打开抖音，手指放到点赞按钮上，记录下此时屏幕顶部显示的坐标，然后把这个坐标替换到代码中就好了。

（3）程序主逻辑部分

根据前面分析的流程图，编写爬虫程序的主逻辑。

import datetime
import time
import shutil

if __name__ == '__main__':
    
    access_token = get_access_token()
    # 设置一条视频最长的识别时间，要是墨迹 10 秒还不露脸，也不管她了，下一个
    RECOGNITE_TOTAL_TIME = 10 
    # 识别次数
    recognite_count = 0

    # 图片类型【网络和本地】
    TYPE_IMAGE_NETWORK = 0
    TYPE_IMAGE_LOCAL = 1

    print("打开抖音~")
    
    start_my_app(package_name, activity_name)
    time.sleep(5)
    print("开始播放视频~")
    find_girl_num = 0
    # 对当前视频截图去人脸识别
    while True:
        # 开始识别的时间
        recognite_time_start = datetime.datetime.now()
        # 识别次数
        recognite_count = 1
        # 循环地去刷抖音
        while True:
            # 获取截图
            screen_name = get_screen_shot_part_img('images/temp%d.jpg' % recognite_count)
            # 人脸识别
            recognite_result = analysis_face(parse_face_pic(screen_name, TYPE_IMAGE_LOCAL, access_token))
            recognite_count += 1
            # 第n次识别结束后的时间
            recognite_time_end = datetime.datetime.now()
            # 这是一个美女
            if recognite_result:
                find_girl_num += 1
                save_video_met(screen_name, find_girl_num)
                print("已经发现 %d 个漂亮小姐姐" % find_girl_num)
                break
            else:
                if (recognite_time_end - recognite_time_start).seconds < RECOGNITE_TOTAL_TIME:
                    continue
                else:
                    print('超时！！！这是一条没有吸引力的视频！')
                    # 跳出里层循环
                    break
        # 删除临时文件
        shutil.rmtree('./images')
        time.sleep(0.05)
        os.mkdir('./images')

        # 播放下一条视频
        print('==' * 30)
        time.sleep(2)
        print('准备播放下一个视频~')
        play_next_video()
        time.sleep(2)

有时候网络可能卡一些，视频加载需要一些时间，所以每次划到下一条视频时，先停两秒，等视频差不多加载好了再开始检测。