参加活动:Datawhale Python爬虫打卡学习小组
笔记:第一次打卡活动学习内容
开源链接
一.互联网、HTTP、网页概念
1.1 互联网vs万维网:
互联网(Internet):
网络与网络所串联成的庞大网络,这些网络以一组标准的网络协议族相连,连接全世界几十亿个设备,形成逻辑上的单一巨大国际网络。这种将计算机网络互相连接在一起的方法可称作“网络互联”,在此基础上发展出来的覆盖全世界的全球性互联网络称为“互联网”,即相互连接在一起的网络。
万维网(World Wide Web):
一个超文本相互链接而成的全球性系统,而且是互联网所能提供的服务之一。万维网由浏览器浏览连超文本页面组成,这些超文本页面是通过TCP/IP协议从网络上获取的。网页的开头部分总是http://或者https://,表明被浏览器的信息是超文本,是利用超文本传输协议来传输的。互联网包含广泛的信息资源和服务,例如相互关联的超文本文件,还有万维网的应用,支持电子邮件的基础设施、点对点网络、文件共享,以及IP电话服务。
此处可参考CSDN上一位大佬的解释,链接如下:
互联网和万维网的区别:https://blog.csdn.net/sinat_36728518/article/details/79369789
1.2 HTTP
HTTP的请求方法:
GET,HEAD,POST,PUT,DELETE,TRACE,OPTIONS,CONNECT
1.3 网页
点击跳转到菜鸟教程CSS|HTML
网页组成三要素: HTML 、 CSS 、JavaScript 。
1)HTML :搭建整个网页的骨架;
2)CSS :美化页面;
3)JavaScript: 让网页“动”起来,即网页的数据动态交互和网页上的动画(动画由 JavaScript 配合 CSS 来完成)。
网页结构:
以建立一个demo.html为例,效果图如下:
代码如下:
<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<title>Demo</title>
</head>
<body>
<div id="container">
<div class="wrapper">
<h1>Hello World</h1>
<div>Hello Python.</div>
</div>
</div>
</body>
</html>
注意:文件保存为".html"格式
作出部分修改后:
<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<title>Demo</title>
</head>
<body style="background-color:grey;">
<div #container>
<div .wrapper>
<h1 style="text-align:center;background-color:black;color:white;">Hello World</h1>
<div style="text-align:center;background-color:white;color:black;">Hello Python.</div>
</div>
</div>
</body>
</html>
二.使用开发者工具检查网页
略(因为Datawhale已经讲得图文并茂)
点击跳转笔记链接
2.1 Requests库的基本应用
2.1.1 Requests.get
爬取的网络链接:https://www.python.org/dev/peps/pep-0020/
import requests
url = 'https://www.python.org/dev/peps/pep-0020/'
res = requests.get(url)
text = res.text
text
运行结果以字符串返回了开发者工具下的Elements的内容(截取了部分图片如下):
接下来用python的内置函数find来定位“python之禅”的索引,然后从这段字符串中取出它。步骤如下:
1)通过观察网站,我们可以发现这段话在一个特殊的容器中,通过审查元素,使用快捷键Ctrl+shift+c快速定位到这段话也可以发现这段话包围在pre标签中,因此我们可以由这个特定用find函数找出具体内容。
*: < p r e > <pre> <pre>标签可定义预格式化的文本。 被包围在" < p r e > <pre> </