爬虫实战
使用requests和selenium等进行爬虫练习
面咋了
把书读烂
展开
-
爬虫疫情数据可视化(可视化图表)
由于本人才疏学浅,难免有纰漏,欢迎指正。由于本篇文章内容过多,本文只提供大致思路和分享代码,如有运行相关问题,请留言。原创 2022-07-03 21:42:40 · 2742 阅读 · 16 评论 -
歌词评论可视化|生成词云图
本文抓取的是某音乐评论,将数据保存到mysql数据库,并生成词云。原创 2022-07-20 17:41:59 · 670 阅读 · 3 评论 -
爬虫数据保存到mysql数据库
简单的爬虫,把爬取数据保存到mysql数据库原创 2022-07-19 18:17:08 · 490 阅读 · 0 评论 -
python-爬虫 抓取美食板块商家数据
import pprintimport requestsimport csvimport reurl='http://meishi.meituan.com/i/api/channel/deal/list'headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36 Edg/9...原创 2022-05-07 21:08:31 · 1233 阅读 · 5 评论 -
python使用selenium模拟浏览器进入好友QQ空间留言
python使用selenium模拟浏览器进入好友QQ空间留言原创 2022-03-25 15:42:45 · 1636 阅读 · 12 评论 -
python爬取动态加载数据过程解析
微博视频抓取的思路:整个页面中的视频就在这些component?包里,一个包里面是8个视频,进一步观察:请求地址一样,只是post请求携带的data不一样,根据提交不同的data就可以得到不同的数据接下里,只需找到next_cursor如图,就是第一个component包里携带的next_cursor是请求下个包所用的一小部分参数,所以只需要更换data里边的next_cursor,就可以抓取所有的视频。抓取这些包的目的主要是获取里边的一个oid值,这个...原创 2022-04-29 13:34:17 · 924 阅读 · 0 评论 -
python爬虫-电影数据抓取
1、进入此次爬取的页面点这里。2、按F12—> network3、ctrl+r 刷新 如图搜索一个电影名,找到数据位置,然后查看4、找到请求的url ‘?’后边的是参数,不要带上5、参数单独拿出来start:0 代表的是排行榜的第一部电影limit:20 代表的是一次返回20条数据(20部电影)start和limit都可以更改6、大致先看一看拿到的数据类型,然后解析,从其中拿到自己想要的数据 7、开始编写代码: 运行代码,查看结果: 拿到的的确是两条数据,然后从其中选择自己想要的数据出来,进行可视原创 2022-06-13 16:22:06 · 12141 阅读 · 7 评论 -
selenium 实战模拟登陆
首先下载selenium模块,pip install selenium,下载一个浏览器驱动程序(我这里使用谷歌)。#需要用到的所有包from selenium import webdriverfrom selenium.webdriver.chrome.service import Servicefrom selenium.webdriver.common.by import Byfrom time import sleepfrom selenium.webdriver import A原创 2022-03-26 19:32:41 · 4440 阅读 · 12 评论 -
无头浏览器+规避检测
from selenium import webdriverfrom selenium.webdriver.chrome.service import Service#实现无可视化界面(无头浏览器)from selenium.webdriver import ChromeOptionsoption=ChromeOptions()option.add_argument('--headless')option.add_argument('--disable-gpu')s=Service("chr.原创 2022-03-25 23:35:08 · 593 阅读 · 0 评论 -
点选文字验证码识别
最近在学习爬虫,碰到很多验证登录,今天分享一个点选文字验证码识别以及我在使用的验证码识别平台。(上篇文章有涉及滑块验证)首先,注册一个超级鹰账号,选择充值0.5-1元即可。进入用户中心 > 软件ID 生成一个用来接入接口的软件ID,下载示例代码,然后就可以在pycharm中使用。超级鹰可以识别多种类型,b站验证码属于‘9004’以b站验证码为例:具体方法:首先模拟登录b站,进行登录,然后对验证码图片进行截图,使用screenshot()函数,将保存的图片传递给第三方平.原创 2022-03-28 22:27:44 · 3960 阅读 · 11 评论