![](https://img-blog.csdnimg.cn/20190918140145169.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
python爬虫专栏
文章平均质量分 75
爬虫案例,心得
徐尚
这个作者很懒,什么都没留下…
展开
-
文字验证码处理-超级鹰打码平台示例
一:使用超级鹰需要注册账号并购买题分(10块钱一万分)超级鹰官网地址http://www.chaojiying.com/二:示例代码import requestsimg_pth=r"C:\Users\ThinkPad\Desktop\2.png"im = open(img_pth, 'rb').read()files = {'userfile':im}params = { 'user': 'xxxx', #你的平台用户名 'pass':'xxxx', #你的平台密码原创 2020-06-02 16:07:45 · 1051 阅读 · 0 评论 -
微博爬虫一(Selenium)
背景一般企业做舆情分析,新浪微博是必不可少需要关注的。看看有没有负面消息尽早介入处理。人工查找筛选这些信息显然效率不够高,不够智能;毕业以后,很少主动去关注母校的一些情况。借学习爬虫的机会,看看母校最近发生了什么。目标如下图,准备爬取母校微博账号【南京师范大学】近期发布的内容与互动情况。爬取的数据包括:微博发布的时间;微博的文字内容;图片信息(URL);转发数量 ;评论数量,评论人ID与评论内容;点赞数量探索下拉网页,可以看到微博内容是Ajax动态加载的,细心探原创 2020-05-14 21:40:45 · 1453 阅读 · 0 评论 -
python爬虫进阶-滑块验证码破解(bilibili)
目标如下图,利用selenium模拟拖动滑块完成验证关键问题我们知道selenium可以定位到用户名和密码,用send_keys可以实现输入账号密码。同样我们可以用selenium定位到滑块,用click_and_hold方法可以实现拖动滑块。关键问题是:1)如何计算滑块拖动的距离?2)知道了滑块拖动的距离后,如何设计路径,使得浏览器操作更像人而不被识别出来。思路1)滑块拖动距离...原创 2020-05-03 21:14:21 · 3243 阅读 · 0 评论 -
Python爬虫-头条街拍(Ajax处理)
目标爬取今日头条街拍内容中前20组照片(如下图),保存至本地网址:https://www.toutiao.com/search/?keyword=%E8%A1%97%E6%8B%8D探索1)通过request.get方法解析出来的文本中,无法获取任何图片信息;2)F12打开开发者模式,选择Network,再选择XHR,将左侧网页的滑块往下拉,可以看到有相似标题内容陆续被加载出来(Aja...原创 2020-05-01 21:07:47 · 595 阅读 · 0 评论 -
python爬虫进阶-突破字体反爬虫
目标:爬取论坛上的整篇文章,如下图所示:网址:https://club.autohome.com.cn/bbs/thread/1f05b4da4448439b/76044817-1.html#%23%23问题描述:1)如下图所示,审查元素中一句话被拆分成好几段,而且个别文字被神秘符号代替了,比如【人生中的】的“的”,和【第一台】中的“一”,在审查元素中搜索“font-face”,“ur...原创 2020-04-30 15:59:47 · 555 阅读 · 2 评论 -
Python爬虫之豆瓣排行榜(正则表达式)
Python爬虫之豆瓣排行榜(xpath)1. 网页分析1)使用Chrome浏览器打开网页https://maoyan.com/ ,切换到【榜单】,【TOP100榜】2) 网页翻到最后,点击“下一页”,发现网址变成了“https://maoyan.com/board/4?offset=10”;再点击下一页,网址又变成“https://maoyan.com/board/4?offset=2...原创 2019-12-26 12:26:08 · 1119 阅读 · 0 评论