爬虫基础

最新推荐文章于 2024-09-27 10:11:28 发布

捉鸭子

最新推荐文章于 2024-09-27 10:11:28 发布

阅读量863

点赞数

文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_44454180/article/details/109800436

版权

1.爬虫的概念

模拟浏览器
发送请求
获取响应

2.爬虫作用

数据采集
软件测试
抢票
网站投票
网络安全

3.爬虫的分类

数量
是否获取数据
url与数据关系

4.爬虫流程

url
发送请求，获取响应
解析

5.http复习

01.http以及https的概念和区别

Https和http更让安全，但性能更低

02.常见的请求头与响应头

请求头

host 域名

Connection 长连接

Upgrade-Insecure-Requests 升级为https

***User-Agent 用户代理提供系统信息和浏览器信息

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36

***Referer 页面跳转处用于防盗链图片视频

***Cookie 状态保持
响应头
set-Cookie

03.状态码

所有的状态码都不可信，一切以是都能抓包得到的数据

network抓包得到的源码才是判断依据，elements中的源码是渲染之后的源码，不能作为判断标准

04.浏览器发送请求过程

浏览器：发送所有请求进行渲染
爬虫：只发送指定请求，不会渲染

抓包过程：

骨骼文件： html静态页面
肌肉文件：js ajax
皮肤：css font 图片等

学完爬虫想写博客了，请大家多多关注！

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

捉鸭子

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

12306半自动抢票

weixin_44851971的博客

12-04

365

from selenium import webdriver from selenium.common.exceptions import NoSuchElementException, ElementNotVisibleException from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support imp

Python 爬虫基础

既然选择远方，便只顾风雨兼程！

02-28

1192

文章目录爬虫基础一、基本概念1、简介1.1 概念1.2 爬虫分类1.3 爬虫中的矛与盾1.3.1 反爬机制1.3.2 反反爬策略1.3.3 robots 协议1.4 网络协议1.4.1 http 协议1.4.2 https 协议二、 requests 模块1、简介2、案例3、 UA 伪装3.1 随机生成 UA3.2 headers 格式化三、网页解析1、正则解析2、 bs 解析3、 xpath 解析4、 PyQuery 解析四、数据分析爬虫基础一、基本概念 1、简介 1.1 概念什么

1 条评论您还未登录，请先登录后发表或查看评论

Python爬虫实战之12306抢票

weixin_42088036的博客

10-08

5952

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤 1.引入库代码

Python基于selenium的12306模拟登陆+自动抢票

Divine0的博客

05-03

891

说明：上一篇写了Python用selenium实现自动登陆：https://blog.csdn.net/Divine0/article/details/105829700 这一篇是对上一篇的功能拓展，可以实现自动登陆+自动抢票，考虑到自动登陆耗时较久且意义不大，所以增加了手动选择验证码登陆的选项，抢票时可以手动设定的参数包括出发地、目的地、车次和座位类型，当没有余票时将不断刷新页面直到出现余票。...

基于selenium的大麦网自动抢票脚本实测（新年第一篇）

热门推荐

cywtiancai的博客

01-25

3万+

本次试验对象为大麦网 2020上海林俊杰演唱会，针对大家关心的能不能抢到票的问题。先在开头说明结论 1.以目前的脚本情况，在不经过大量优化的情况下寄托于python的速度去和票贩子抢票是不可能的。 2.这个项目不太适用于纯小白，因为selenium坑太多，但博主这种有一些前端基础的半小白还是收获很多。 3.本项目来自于知乎用户Oliver0047，地点https://zhuanlan....

网络爬虫基础介绍

又逢乱世

07-17

1865

什么是爬虫、爬虫的应用场景、爬虫的类型、爬虫关注的请求头、爬虫关注的响应头、爬虫对响应状态码的处理建议、常见状态码、爬虫的法律问题

python爬虫基础知识

baidu_31295661的博客

01-12

2730

01 一、基础入门 1.1 什么是爬虫爬虫(spider，又网络爬虫)，是指向网站/网络发起请求，获取资源后分析并提取有用数据的程序。从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的HTML代码/JSON数据/二进制数据（图片、视频）爬到本地，进而提取自己需要的数据，存放起来使用。 1.2 爬虫基本流程用户获取网络数据的方式：方式1：浏览器提交请求--->下载网页代码--->解析成页面方式2：模拟浏览器发送请求(获取网页代码)-&gt...

爬虫基础知识点

qq_52262831的博客

11-11

2858

1.爬虫的概念模拟浏览器，发送请求，获取响应。 2.爬虫的作用数据采集软件测试抢票网站上的投票网络安全 3.爬虫的分类爬虫根据数量：分为通用爬虫、聚焦爬虫聚焦爬虫根据是否获取数据：分为：功能性爬虫（不读取数据，只为实现某一功能）、数据增量爬虫（获取数据，用于后续分析）数据增量爬虫根据url与数据的关系：分为url与数据同时变化、url不变数据变化。 4.爬虫的流程 url或url_list（网址或网址列表）发请求，获取响应解析 5.http、https

爬虫基础知识

Rory的博客

11-21

7156

注意：cookie内容要以键值对的形式存在。重载start_requests方法。

网络爬虫基础

eclipsercp的博客

07-05

2469

Beautiful Soup是一个Python库，用于从HTML和XML文件中提取数据。它能够将复杂的HTML文档转换成易于使用的Python对象，从而方便地提取标签、类、ID等元素。Scrapy是一个快速的、高层次的web爬虫框架，用于抓取网站数据并从网页中提取结构化的数据。Scrapy适合于大规模的爬虫项目，并且可以与多种数据库后端进行集成。

python爬虫基础

04-13

那么对于一些中小型的公司，没有如此大的...在上面的来源中：人工的方式费时费力，免费的数据网站上的数据质量不佳，很多第三方的数据公司他们的数据来源往往也是爬虫获取的，所以获取数据最有效的途径就是通过爬虫爬取

python爬虫基础python爬虫基础

12-28

python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础python爬虫基础...

python爬虫基础课件.pdf

06-20

根据提供的文件信息，这份python爬虫基础课件主要涵盖了网络爬虫的概念、原理、基本流程以及实现数据抓取和处理的关键技术点。首先，网络爬虫是自动获取网页内容的程序，常用于搜索引擎、数据采集等场景。网络爬虫...

python爬虫基础.zip

02-24

Python爬虫基础是编程领域中的一个重要分支，它主要涉及如何使用Python语言自动化地从互联网上获取数据。Python作为一门简洁且强大的脚本语言，因其丰富的库支持和易读性强的语法，成为爬虫开发的首选工具。在这个...

VeighNa：强大的Python开源量化交易平台

Unity打怪升级

09-26

712

VeighNa（简称 VN 或 vn.py）是一个基于 Python 的开源量化交易平台，专为量化交易爱好者和专业交易员设计。VeighNa 是由国内开发者社区推动的开源项目，旨在提供一个功能丰富、灵活且易于扩展的量化交易解决方案。该框架不仅支持多种资产类别的交易，如股票、期货、期权、加密货币等，还支持多种交易接口和协议，使得用户能够轻松进行多市场、多品种的交易策略开发和部署。

第二百五十四节 JPA教程 - JPA 多对多映射示例