第七章：网络爬虫-网络爬虫流程及常用包

最新推荐文章于 2023-12-28 13:55:31 发布

浊酒南街

最新推荐文章于 2023-12-28 13:55:31 发布

阅读量310

点赞数

分类专栏： # 零基础搞定Python数据分析与挖掘

本文链接：https://blog.csdn.net/weixin_43597208/article/details/106132099

版权

零基础搞定Python数据分析与挖掘专栏收录该内容

34 篇文章 0 订阅

订阅专栏

直接学习：https://edu.csdn.net/course/play/6861/326751
网络爬虫流程及常用包
1、定义
网络爬虫是根据一定的规则，自动抓取万维网信息的程序或者脚本。借助于网络爬虫的技术，基本可以做到所见即所得。
典型的应用：搜索引擎，今日头条，金品分析等。
2、爬虫流程
在这里插入图片描述
3、爬虫流程
流程
1）、发送请求，向对方服务器发送待抓取网站的链接
2）、返回请求，在不发生意外的情况下（意外包括网络问题，客户端问题，服务器问题等），对方服务器将会返回请求的内容（即网页源代码）
3）、数据存储，利用正则表达式或解析法对源代码做清洗，并将目标数据存储到本地（txt，csv，excel等）或数据库（MySQL，SQL Server,MongoDB等）
4、使用到的包及函数

import requests
import re 
from bs4 import BeautifulSoup

requests.get:基于url，发送网络请求
re.findall:基于正则表达式，搜索目标函数
BeautifulSoup：对html源代码进行解析，便与目标数据的解析

浊酒南街

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第七章：网络爬虫-网络爬虫流程及常用包

直接学习：https://edu.csdn.net/course/play/6861/326751网络爬虫流程及常用包1、定义网络爬虫是根据一定的规则，自动抓取万维网信息的程序或者脚本。借助于网络爬虫的技术，基本可以做到所见即所得。典型的应用：搜索引擎，今日头条，金品分析等。2、爬虫流程3、爬虫流程流程1）、发送请求，向对方服务器发送待抓取网站的链接2）、返回请求，在不发生意外的情况下（意外包括网络问题，客户端问题，服务器问题等），对方服务器将会返回请求的内容（即网页源代码）3）、数据
复制链接

扫一扫