Python爬虫1:爬虫原理、网页构造与第一个爬虫程序

11 篇文章 262 订阅 ¥79.90 ¥99.00
本文介绍了Python爬虫的基础知识,包括爬虫原理、网页构造和初步的爬虫程序编写。首先解释了网络连接的过程,然后详细阐述了爬虫的工作流程。接着探讨了网页的构成,通过Chrome浏览器的开发者工具展示了如何查看和理解网页源代码。最后,讨论了Python的第三方库,如Requests和BeautifulSoup,并给出了一个爬取北京短租房信息的综合示例,包括目标信息的选择、网页元素的定位和提取方法。
摘要由CSDN通过智能技术生成

Python爬虫1:爬虫原理、网页构造与第一个爬虫程序

本部分介绍15篇爬虫及文本分析的相关文章,基本上学完就可以处理部分爬虫和文本。
第一讲有三个内容,包括1 爬虫原理、2 网页构造、3 第一个爬虫程序。

1.爬虫原理
(1)网络连接
网络连接像是在自助饮料售货机上购买饮料一样:购买者只需选择所需饮料,投入硬币(或纸币),自助饮料售货机就会弹出相应的商品。网络连接也正是如此,如下图所示,本机电脑(购买者)带着请求头和消息体(硬币和所需饮料)向服务器(自助饮料售货机)发起一次Requests请求(购买),相应的服务器(自助饮料售货机)会返回本机电脑相应的HTML文件作为Response(相应的商品)。
在这里插入图片描述
(2)爬虫流程
了解网络连接的基本原理后,爬虫原理就很好理解了。网络连接需要电脑一次Requests请求和服务器端的Response回应。爬虫也是需要二件事:
(1)模拟电脑对服务器发起Requests请求。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

计量小虫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值