前言
前短时间,为了验证公司的验证码功能存在安全漏洞,写了一个爬虫程序爬取官网图库,然后通过二值分析,破解验证码进入系统刷单。 其中,整个环节里关键的第一步就是利用 Python 爬虫技术就是拿到数据。
今天,我打算把爬虫经验分享一下,因为不能泄露公司核心信息,所以只能再一次拿“某瓣电影”开刀啦,O(∩_∩)O哈哈~
通过本篇,你将学会破解【身份鉴别】类的反爬虫程序,并利用 BeautifulSoup 解析静态的HTML页面,还有使用 xlwt 插件操作 Excel。
本文仅教学使用,无任何攻击行为或意向。
正文
一、页面分析
1. 打开页面,提取关键信息
首先,打开“某瓣电影一周新片榜”的页面:https://movie.douban.com/chart,截图省略了下面列表部分。
然后,提取榜单里的关键信息,如:电影名,图片链接,详情链接,评分,评论数等,这是我们需要爬取的数据,接下来就需要弄清楚他们在 Html 中的位置。
2. 分析Html页面
Chrome浏览器 - 【F12】检查下 Html 页面结构,找到排行榜数据的具体位置,这对我们后续利用 BeautifulSoup 解析至关重要。
下面图片里可以看到,TOP10榜单信息在 “<div class="indent"></div>” 标签里,而每一条记录都在 “<tr class="item"></tr>” 标签里,10条 “<tr></tr> ”标签形成一个List集合。