Python爬虫第一次打卡学习

最新推荐文章于 2023-12-19 13:38:41 发布

平凡的小何同学

最新推荐文章于 2023-12-19 13:38:41 发布

阅读量690

点赞数

分类专栏： Python爬虫文章标签： python 网络 http

本文链接：https://blog.csdn.net/weixin_44387515/article/details/105655098

版权

本文介绍了互联网与万维网的区别，详细讲解了HTTP协议，阐述了网页由HTML、CSS和JavaScript组成的三要素。同时，探讨了使用开发者工具检查网页的方法，特别是Requests库在获取网页内容中的应用，以及API的使用和JavaScript与AJAX技术的基础知识。

摘要由CSDN通过智能技术生成

参加活动：Datawhale Python爬虫打卡学习小组
笔记：第一次打卡活动学习内容
开源链接

一.互联网、HTTP、网页概念

1.1 互联网vs万维网：

互联网（Internet）：
网络与网络所串联成的庞大网络，这些网络以一组标准的网络协议族相连，连接全世界几十亿个设备，形成逻辑上的单一巨大国际网络。这种将计算机网络互相连接在一起的方法可称作“网络互联”，在此基础上发展出来的覆盖全世界的全球性互联网络称为“互联网”，即相互连接在一起的网络。
万维网（World Wide Web)：
一个超文本相互链接而成的全球性系统，而且是互联网所能提供的服务之一。万维网由浏览器浏览连超文本页面组成，这些超文本页面是通过TCP/IP协议从网络上获取的。网页的开头部分总是http://或者https://，表明被浏览器的信息是超文本，是利用超文本传输协议来传输的。互联网包含广泛的信息资源和服务，例如相互关联的超文本文件，还有万维网的应用，支持电子邮件的基础设施、点对点网络、文件共享，以及IP电话服务。
此处可参考CSDN上一位大佬的解释，链接如下：
互联网和万维网的区别：https://blog.csdn.net/sinat_36728518/article/details/79369789

1.2 HTTP

HTTP响应过程图
HTTP的请求方法：
GET，HEAD,POST,PUT,DELETE,TRACE,OPTIONS,CONNECT

1.3 网页

点击跳转到菜鸟教程CSS|HTML
网页组成三要素： HTML 、 CSS 、JavaScript 。

1）HTML ：搭建整个网页的骨架；

2）CSS ：美化页面；

3）JavaScript：让网页“动”起来，即网页的数据动态交互和网页上的动画（动画由 JavaScript 配合 CSS 来完成）。

网页结构：
以建立一个demo.html为例，效果图如下：
demo
代码如下：

<!DOCTYPE  html>
<html>
    <head>
        <meta charset="UTF-8">
        <title>Demo</title>
    </head>
    <body>
        <div id="container">
            <div class="wrapper">
                <h1>Hello World</h1>
                <div>Hello Python.</div>
            </div>
        </div>
    </body>
</html>

注意：文件保存为".html"格式
作出部分修改后：
demo1

<!DOCTYPE  html>
<html>
    <head>
        <meta charset="UTF-8">
        <title>Demo</title>
    </head>
    <body style="background-color:grey;">
        <div #container>
            <div .wrapper>
                <h1 style="text-align:center;background-color:black;color:white;">Hello World</h1>
                <div style="text-align:center;background-color:white;color:black;">Hello Python.</div>
            </div>
        </div>
    </body>
</html>

二.使用开发者工具检查网页

略（因为Datawhale已经讲得图文并茂）
点击跳转笔记链接

2.1 Requests库的基本应用

2.1.1 Requests.get

爬取的网络链接:https://www.python.org/dev/peps/pep-0020/

import requests
url = 'https://www.python.org/dev/peps/pep-0020/'
res = requests.get(url)
text = res.text
text

运行结果以字符串返回了开发者工具下的Elements的内容（截取了部分图片如下）：
在这里插入图片描述
接下来用python的内置函数find来定位“python之禅”的索引，然后从这段字符串中取出它。步骤如下：

1）通过观察网站，我们可以发现这段话在一个特殊的容器中，通过审查元素，使用快捷键Ctrl+shift+c快速定位到这段话也可以发现这段话包围在pre标签中，因此我们可以由这个特定用find函数找出具体内容。

*： $< p r e >$ 标签可定义预格式化的文本。被包围在"

最低0.47元/天解锁文章