爬虫入门
文章平均质量分 66
小儿小儿朗
这个作者很懒,什么都没留下…
展开
-
爬虫之模拟登陆
模拟登陆模拟登陆笔记实战模拟登陆人人网附件超级鹰代码模拟登陆笔记1.模拟登陆:爬取基于某些用户的用户信息。2.需求:对人人网进行模拟登陆。- ①点击登陆按钮之后会发起一个post请求- ②post请求中会携带登陆之前录入的相关的登陆信息(用户名,密码,验证码…)- ③验证码:每次请求都会动态变化3.需求:爬取当前用户的相关的用户信息(个人主页中显示的用户信息)4.http/https协议特性:无状态。5.没有请求到对应页面数据的原因:发起的第二次基于个人主页页面请求的时候,服务器端并不知原创 2021-04-17 16:44:21 · 334 阅读 · 0 评论 -
爬虫之验证码识别
一、验证码识别1.反爬机制:验证码、识别验证码图片中的数据,用于模拟登陆操作2.识别验证码的操作:1)人工肉眼识别(不推荐)2)第三方自动识别(推荐)- 超级鹰二、实战:识别超级鹰登陆页面中的验证码-超级鹰所提供的的代码-在个人库中将其定义为yh#!/usr/bin/env python coding:utf-8import requestsfrom hashlib import md5class Chaojiying_Client(object): def __in原创 2021-04-12 21:56:35 · 525 阅读 · 0 评论 -
爬虫之数据解析
目录复制数据解析数据解析笔记实战爬取图片正则解析bs4解析案例二级目录二级目录二级目录二级目录数据解析笔记聚类爬虫:爬取页面中指定的页面内容- 编码流程:- 指定url- 发起请求- 获取响应数据- 数据解析- 持久化存储数据解析分类:正则bs4xpath(***)数据解析原理概述:- 解析的局部文本内容都会在标签之间或者标签对应的属性中进行存储- 1.进行指定标签的定位- 2.标签或者标签对应的属性中存储的数据数值进行提取(解析)bs4进行数据解析:- 数据解析的原理原创 2021-04-11 20:03:08 · 248 阅读 · 1 评论 -
爬虫之requests模块
requests模块实战实战一:爬取搜狗首页页面的数据实战二:爬取搜狗指定词条对应的搜索结果页面(简易网页采集器)实战三:破解百度翻译实战四:爬取豆瓣电影分类排行榜实战五:爬取国家药品监督管理总局中基于中华人民共和国化妆品生产许可证相关数据实战实战一:爬取搜狗首页页面的数据import requests#step1:指定urlurl = 'https://www.sogou.com/'#step2:发起请求#get方法会返回一个响应对象response = requests.get(url原创 2021-04-09 16:25:45 · 343 阅读 · 6 评论