Python爬虫第一次打卡学习

本文介绍了互联网与万维网的区别,详细讲解了HTTP协议,阐述了网页由HTML、CSS和JavaScript组成的三要素。同时,探讨了使用开发者工具检查网页的方法,特别是Requests库在获取网页内容中的应用,以及API的使用和JavaScript与AJAX技术的基础知识。
摘要由CSDN通过智能技术生成

参加活动:Datawhale Python爬虫打卡学习小组
笔记:第一次打卡活动学习内容
开源链接

一.互联网、HTTP、网页概念

1.1 互联网vs万维网:

互联网(Internet):
网络与网络所串联成的庞大网络,这些网络以一组标准的网络协议族相连,连接全世界几十亿个设备,形成逻辑上的单一巨大国际网络。这种将计算机网络互相连接在一起的方法可称作“网络互联”,在此基础上发展出来的覆盖全世界的全球性互联网络称为“互联网”,即相互连接在一起的网络。
万维网(World Wide Web):
一个超文本相互链接而成的全球性系统,而且是互联网所能提供的服务之一。万维网由浏览器浏览连超文本页面组成,这些超文本页面是通过TCP/IP协议从网络上获取的。网页的开头部分总是http://或者https://,表明被浏览器的信息是超文本,是利用超文本传输协议来传输的。互联网包含广泛的信息资源和服务,例如相互关联的超文本文件,还有万维网的应用,支持电子邮件的基础设施、点对点网络、文件共享,以及IP电话服务。
此处可参考CSDN上一位大佬的解释,链接如下:
互联网和万维网的区别:https://blog.csdn.net/sinat_36728518/article/details/79369789

1.2 HTTP

HTTP响应过程图
HTTP的请求方法:
GET,HEAD,POST,PUT,DELETE,TRACE,OPTIONS,CONNECT

1.3 网页

点击跳转到菜鸟教程CSS|HTML
网页组成三要素: HTML 、 CSS 、JavaScript 。

1)HTML :搭建整个网页的骨架;
2)CSS :美化页面;
3)JavaScript: 让网页“动”起来,即网页的数据动态交互和网页上的动画(动画由 JavaScript 配合 CSS 来完成)。

网页结构:
以建立一个demo.html为例,效果图如下:
demo
代码如下:

<!DOCTYPE  html>
<html>
    <head>
        <meta charset="UTF-8">
        <title>Demo</title>
    </head>
    <body>
        <div id="container">
            <div class="wrapper">
                <h1>Hello World</h1>
                <div>Hello Python.</div>
            </div>
        </div>
    </body>
</html>

注意:文件保存为".html"格式
作出部分修改后:
demo1

<!DOCTYPE  html>
<html>
    <head>
        <meta charset="UTF-8">
        <title>Demo</title>
    </head>
    <body style="background-color:grey;">
        <div #container>
            <div .wrapper>
                <h1 style="text-align:center;background-color:black;color:white;">Hello World</h1>
                <div style="text-align:center;background-color:white;color:black;">Hello Python.</div>
            </div>
        </div>
    </body>
</html>

二.使用开发者工具检查网页

略(因为Datawhale已经讲得图文并茂)
点击跳转笔记链接

2.1 Requests库的基本应用
2.1.1 Requests.get

爬取的网络链接:https://www.python.org/dev/peps/pep-0020/

import requests
url = 'https://www.python.org/dev/peps/pep-0020/'
res = requests.get(url)
text = res.text
text

运行结果以字符串返回了开发者工具下的Elements的内容(截取了部分图片如下):
在这里插入图片描述
接下来用python的内置函数find来定位“python之禅”的索引,然后从这段字符串中取出它。步骤如下:

1)通过观察网站,我们可以发现这段话在一个特殊的容器中,通过审查元素,使用快捷键Ctrl+shift+c快速定位到这段话也可以发现这段话包围在pre标签中,因此我们可以由这个特定用find函数找出具体内容。

*: < p r e > <pre> <pre>标签可定义预格式化的文本。 被包围在" < p r e > <pre> </

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值