爬虫 day03

1.使用selenium模拟登陆163邮箱

1.安装及下载

selenium安装: pip install selenium 即可自动安装selenium
Chromedriver下载:http://npm.taobao.org/mirrors/chromedriver/
2.保存路径
将下载好的geckodriver以及Chromedriver解压到桌面,打开我的电脑,找到Python文件夹中anancode文件,然后找到Scripts文件,并将刚才解压到桌面的geckodriver和chromedriver保存到此文件夹中即可。
3.selenium特点:
(1)由程序控制浏览器进行操作,而非人工操作;
(2)程序控制浏览器进行操作的时候,速度非常慢,所以需要谨慎使用selenium;
(3)使用selenium控制浏览器的时候,需要下载浏览器对应的驱动程序;
(4)selenium为开源、免费的,但是更新速度没有浏览器快。(不是selenium更新慢,而是浏览器更新速度快,但是要注意selenium和浏览器之间的对应关系。)

###########################
from selenium import webdriver
import time
def login():
dr = webdriver.Chrome()
#打开登陆163邮箱的网页
dr.get(‘http://mail.163.com/’)
#将浏览器窗口最大化
dr.maximize_window()
#休息五分钟等待网页加载完毕 time.sleep(5)
#找到邮箱账号登录框对应的iframe
dr.switch_to.frame(‘x-URS-iframe’)
#找到邮箱账号输入框
email = dr.find_element_by_name(‘email’)
#将自己的邮箱地址输入到邮箱账号框中
email.send_keys(‘wuyue1106’)
#找到密码输入框
password = dr.find_element_by_name(‘password’)
#输入自己的邮箱密码
password.send_keys(’*******’)
#找到登陆按钮
login_btn = dr.find_element_by_id(‘dologin’)
#点击登陆按钮
login_btn.click()
#等待10秒看是否登陆成功
time.sleep(10)

if name == ‘main’:
login()

2.抓取西刺代理,并构建自己的代理池*

参考:https://blog.csdn.net/weixin_42540746/article/details/88250781
1、IP地址:
互联网协议地址(Internet Protocol Address,又译为网际协议地址),缩写为IP地址(IP Address),是分配给用户上网使用的网际协议(IP)的设备的数字标签。常见的IP 地址分为IPv4与IPv6两大类,但是也有其他不常用的小分类。

IP地址由32位二进制数组成,为便于使用,常以XXX.XXX.XXX.XXX形式表现,每组XXX代表小于或等于255的10进制数。例如维基媒体的一个IP地址是208.80.152.2。地址可分为A、B、C、D、E五大类,其中E类属于特殊保留地址。

随着互联网的快速成长,IPv4的42亿个地址的分配最终于2011年2月3日用尽。相应的科研组织已研究出128位的IPv6,其IP地址数量最高可达3.402823669 × 1038个,届时每个人家居中的每件电器,每件对象,甚至地球上每一粒沙子都可以拥有自己的IP地址。

在A类、B类、C类IP地址中,如果主机号是全1,那么这个地址为直接广播地址,它是用来使路由器将一个分组以广播形式发送给特定网络上的所有主机。32位全为1的IP地址“255.255.255.255”为受限广播地址(“limited broadcast” destination address),用来将一个分组以广播方式发送给本网络中的所有主机,路由器则阻挡该分组通过,将其广播功能限制在本网内部。
2、IP封锁:
IP封锁是指防火墙维护一张IP黑名单,一旦发现发往黑名单中地址的请求数据包,就直接将其丢弃,这将导致源主机得不到目标主机的及时响应而引发超时,从而达到屏蔽对目标主机的访问的目的。
ip被封的原因:
a.服务器在国内被封,无法正常访问。
b.服务商更换服务器
c.当计算机或系统受到外部攻击时,管理员可以通过屏蔽攻击源IP地址来抵御攻击。通过防火墙和路由器配置,可以封锁某个IP,禁止与其连接。
3、应对ip封锁是方法:
a.伪造User-Agent
在请求头中把User-Agent设置成浏览器中的User-Agent。来伪造浏览器访问。
b.伪造cookies
若从浏览器中可以正常访问一个页面,则可以将浏览器中的cookies复制过来使用。
c.使用代理
可以换着用多个代理IP来进行访问,防止同一个IP发起过多请求而被封IP。
4、抓取西刺代理,并构建自己的代理池:
西刺代理网址:https://www.xicidaili.com/nn/
先根据BeautifulSoup解析出ip所在标签,并将其提取,其次依次对所提取标签进行验证是否为有效ip,最后将有效ip写入文件。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值