自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 文字验证码处理-超级鹰打码平台示例

一:使用超级鹰需要注册账号并购买题分(10块钱一万分)超级鹰官网地址http://www.chaojiying.com/二:示例代码import requestsimg_pth=r"C:\Users\ThinkPad\Desktop\2.png"im = open(img_pth, 'rb').read()files = {'userfile':im}params = { 'user': 'xxxx', #你的平台用户名 'pass':'xxxx', #你的平台密码

2020-06-02 16:07:45 1088

原创 python常用函数与基础数据结构

整数转二进制bin(3)'0b11'列表推导式s='255.255.255.32'.split('.')print(s)print([bin(int(i))[2:] for i in s])print(''.join([bin(int(i))[2:] for i in s]))['255', '255', '255', '32']['11111111', '11111111', '11111111', '100000']111111111111111111111111100000

2020-06-01 18:27:33 244

原创 微博爬虫一(Selenium)

背景一般企业做舆情分析,新浪微博是必不可少需要关注的。看看有没有负面消息尽早介入处理。人工查找筛选这些信息显然效率不够高,不够智能;毕业以后,很少主动去关注母校的一些情况。借学习爬虫的机会,看看母校最近发生了什么。目标如下图,准备爬取母校微博账号【南京师范大学】近期发布的内容与互动情况。爬取的数据包括:微博发布的时间;微博的文字内容;图片信息(URL);转发数量 ;评论数量,评论人ID与评论内容;点赞数量探索下拉网页,可以看到微博内容是Ajax动态加载的,细心探

2020-05-14 21:40:45 1524

原创 python爬虫进阶-滑块验证码破解(bilibili)

目标如下图,利用selenium模拟拖动滑块完成验证关键问题我们知道selenium可以定位到用户名和密码,用send_keys可以实现输入账号密码。同样我们可以用selenium定位到滑块,用click_and_hold方法可以实现拖动滑块。关键问题是:1)如何计算滑块拖动的距离?2)知道了滑块拖动的距离后,如何设计路径,使得浏览器操作更像人而不被识别出来。思路1)滑块拖动距离...

2020-05-03 21:14:21 3320

原创 Python爬虫-头条街拍(Ajax处理)

目标爬取今日头条街拍内容中前20组照片(如下图),保存至本地网址:https://www.toutiao.com/search/?keyword=%E8%A1%97%E6%8B%8D探索1)通过request.get方法解析出来的文本中,无法获取任何图片信息;2)F12打开开发者模式,选择Network,再选择XHR,将左侧网页的滑块往下拉,可以看到有相似标题内容陆续被加载出来(Aja...

2020-05-01 21:07:47 625

原创 python爬虫进阶-突破字体反爬虫

目标:爬取论坛上的整篇文章,如下图所示:网址:https://club.autohome.com.cn/bbs/thread/1f05b4da4448439b/76044817-1.html#%23%23问题描述:1)如下图所示,审查元素中一句话被拆分成好几段,而且个别文字被神秘符号代替了,比如【人生中的】的“的”,和【第一台】中的“一”,在审查元素中搜索“font-face”,“ur...

2020-04-30 15:59:47 641 2

转载 aiohttp 简易使用教程(转发)

0. 前言本文翻译自aiohttp的官方文档,如有纰漏,欢迎指出。aiohttp分为服务器端和客户端,本文只介绍客户端。由于上下文的缘故,请求代码必须在一个异步的...

2019-12-30 16:41:36 984

原创 Python爬虫之豆瓣排行榜(正则表达式)

Python爬虫之豆瓣排行榜(xpath)1. 网页分析1)使用Chrome浏览器打开网页https://maoyan.com/ ,切换到【榜单】,【TOP100榜】2) 网页翻到最后,点击“下一页”,发现网址变成了“https://maoyan.com/board/4?offset=10”;再点击下一页,网址又变成“https://maoyan.com/board/4?offset=2...

2019-12-26 12:26:08 1177

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除