http与互联网
网页是由 HTML 、 CSS 、JavaScript 组成的。
1)HTML 是用来搭建整个网页的骨架。
2)CSS 是为了让整个页面更好看,包括我们看到的颜色,每个模块的大小、位置等都是由 CSS 来控制。 3)JavaScript 是用来让整个网页“动起来”,这个动起来有两层意思,一层是网页的数据动态交互,还有一层是真正的动,比如我们都见过一些网页上的动画,一般都是由 JavaScript 配合 CSS 来完成的。
下面是一段简单的代码:
txt格式变为html,写入:
<!DOCTYPE html>
<html>
<head>
<meta charset=''UTF-8''>
<title>demo</title>
</head>#head部分结束
<body>
<div id=''container''>
<div class=''wrapper''>#定义一个节点
<h1>hello world</h1>
</div>
</div>
</body>
</html>
其他的一些功能:
<p>可添加段落</p>
<hr>定义一条水平线
<a href=www.baidu.com>添加一个链接</a>
<img scr=''图片地址''width=''宽度''height=''宽度''/>
若要对文字进行颜色和格式的调整,可采用CSS功能。使用CSS选择器来定位节点。
例如:可在head中添加:
<style type="text/css">
.wrapper{
text-align:center;
}
</style>
在body中可以在对应节点中使用.wrapper,节点内容可使用wrapper功能。
<div class="wrapper">
一个关于豆瓣的小爬虫
一般步骤:
1.访问站点
2.定位信息
3.得到并处理信息(扫垃圾?
随便爬一个网站的elements内容出来
import requests
url='随便添加一个网址'
res=requests.get(url)
text=res.text
这样text里面就写了待爬取网页element中的内容啦!
接下来对信息进行定位,在开发者状态下选中要爬取的内容,拿到对应的标签,然后采用大佬口中非常low的find函数去定位…
with open('爬到的element内容','w+') as e:
e.write(text[text.find('找到的标签')+n:text.find('</pre')-n])
自己把n数出来…好菜…据说后面有Xpath就好惹!
进入正题:爬爬爬豆瓣top250
直接上带注释的代码。and解析和思考就写在代码后面儿,以防青年痴呆的自己忘记…
import requests
import os
headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"}#搞一个头才能暗搓搓爬别人
for offset in range(0,250,25):#好多页好多页的豆瓣需要包一个循环鸭
url = 'https://movie.douban.com/top250?start=' + str(offset) +'&filter='
intems=[]
res=requests.get(url,headers=headers)
text=res.text#这里就实现了一个网页的element的提取
for a in range(25):#一个页面提取25条信息
text=text[text.find('alt')+3:]
texts=text.split('"')#可以看到后台是以"分割我们想要提取的信息,所以我们也以"为分隔符,分割出字符串
name=texts[1]
image=texts[3]#注意要提取的信息在text中的位置,又是一通无脑数数
items.append((name,image))
for item in intems:
print(item)
补充说明一哈25次的小循环以防忘记(误):
这个很low的find函数定位到了我们之前在开发者工具中的标签alt,返回了它的a在的位置,这个位置是0,那么数出来3刚好是=所在的位置,左闭右开,则我们提取出的text就是="name"scr=“image”…这样的内容了。采用split函数,以"为分隔符,那么text[0]就是=,text[1]就是name,text[2]就是scr=,text[3]就是image。拿出我们需要的内容就可以啦!
结尾
task1就这样子吧…希望task2能有一点点进步…可以不用再数数
结尾感谢DataWhale(注意:这不是广告!)和某三百斤的胖子…