pua肆虐?运用python进行图片文字识别得到“所谓pua导师”热卖作品列表,然后用分布式爬虫全网采集,起底各pua!

回 复 潘多拉 送 你 一 个 特 别 推 送

用数据揭穿pua的真面目,python 奥利给!

用python可以做好多好玩的事情,比如说我之前做的,新型冠状病毒疫情之下,采集央视网新联频道,生成词云,看民众最当下最关注什么。用python的requests模块采集央视网新联频道,制做新型冠状病毒战役季热点词云。
 

当然这还不是最好玩的,我之前有发表过文章情感操控术——如何不被渣男控制。为了切实表达对pua不了解,担心上当受骗的群体的关切,我特意用python写了一个脚本,采集某站点兜售的所谓各种导师所有课程的截图。然后用baidu-aip工具包解析出导师的所有作品,然后再经过一些骚操作,处理成“从作品到人到惯用套路的”故事型“pdf文档(开始想直接放在服务器上,部署成小姐姐只要输入某人微信号或微博号或者十张朋友圈常用照,就给出他是pua概率的应用,后来备案太麻烦,因此作罢)。

先看看部分效果。
上代码。

#!/usr/bin/python# -*- coding: UTF-8 -*-from requests_html import HTMLSessionfrom pymongo import MongoClientimport refrom urllib.parse import urlparseimport timefrom baidu.client import BaiduClientfrom baidu.api import BaseBaiduAPIfrom aip import AipOcrimport os,logging

LOG_FILENAME='test.log'logging.basicConfig(filename=LOG_FILENAME,level=logging.INFO)client=MongoClient('127.0.0.1',27017)#连服务器db=client['pua']#连数据库collection=db['pua_recognize_detail']#连
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值