task1http基础与小小小爬虫

最新推荐文章于 2024-07-25 00:08:05 发布

small_salt_nuaa

最新推荐文章于 2024-07-25 00:08:05 发布

阅读量221

点赞数

文章标签： python

本文链接：https://blog.csdn.net/xiaomogui_nuaa/article/details/105666525

版权

http与互联网

网页是由 HTML 、 CSS 、JavaScript 组成的。
1）HTML 是用来搭建整个网页的骨架。
2）CSS 是为了让整个页面更好看，包括我们看到的颜色，每个模块的大小、位置等都是由 CSS 来控制。 3）JavaScript 是用来让整个网页“动起来”，这个动起来有两层意思，一层是网页的数据动态交互，还有一层是真正的动，比如我们都见过一些网页上的动画，一般都是由 JavaScript 配合 CSS 来完成的。

下面是一段简单的代码：
txt格式变为html，写入：

<!DOCTYPE html>
<html>
       <head>
        	<meta charset=''UTF-8''>
        	<title>demo</title>
        </head>#head部分结束
        <body>
        	<div id=''container''>
        		<div class=''wrapper''>#定义一个节点
        			<h1>hello world</h1>

        	        </div>
        	 </div>
        </body>
</html>

其他的一些功能：

<p>可添加段落</p>
<hr>定义一条水平线
<a href=www.baidu.com>添加一个链接</a>
<img scr=''图片地址''width=''宽度''height=''宽度''/>

若要对文字进行颜色和格式的调整，可采用CSS功能。使用CSS选择器来定位节点。
例如：可在head中添加：

<style type="text/css">
	.wrapper{
		text-align:center;
		}
	</style>
	
在body中可以在对应节点中使用.wrapper，节点内容可使用wrapper功能。

<div class="wrapper">

一个关于豆瓣的小爬虫

一般步骤：
1.访问站点
2.定位信息
3.得到并处理信息（扫垃圾？
随便爬一个网站的elements内容出来

import requests
url='随便添加一个网址'
res=requests.get(url)
text=res.text

这样text里面就写了待爬取网页element中的内容啦！
接下来对信息进行定位，在开发者状态下选中要爬取的内容，拿到对应的标签，然后采用大佬口中非常low的find函数去定位…

with open('爬到的element内容'，'w+') as e:

e.write(text[text.find('找到的标签')+n:text.find('</pre')-n])

自己把n数出来…好菜…据说后面有Xpath就好惹！

进入正题：爬爬爬豆瓣top250

直接上带注释的代码。and解析和思考就写在代码后面儿，以防青年痴呆的自己忘记…

import requests
import os

headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"}#搞一个头才能暗搓搓爬别人

for offset in range(0,250,25):#好多页好多页的豆瓣需要包一个循环鸭
	url = 'https://movie.douban.com/top250?start=' + str(offset) +'&filter='
	intems=[]
	res=requests.get(url,headers=headers)
	text=res.text#这里就实现了一个网页的element的提取
	for a in range(25):#一个页面提取25条信息
		text=text[text.find('alt')+3:]
		texts=text.split('"')#可以看到后台是以"分割我们想要提取的信息，所以我们也以"为分隔符，分割出字符串
		name=texts[1]
		image=texts[3]#注意要提取的信息在text中的位置，又是一通无脑数数
		items.append((name,image))
	for item in intems:
		print(item)

补充说明一哈25次的小循环以防忘记（误）：
这个很low的find函数定位到了我们之前在开发者工具中的标签alt，返回了它的a在的位置，这个位置是0，那么数出来3刚好是=所在的位置，左闭右开，则我们提取出的text就是="name"scr=“image”…这样的内容了。采用split函数，以"为分隔符，那么text[0]就是=，text[1]就是name，text[2]就是scr=，text[3]就是image。拿出我们需要的内容就可以啦！

结尾

task1就这样子吧…希望task2能有一点点进步…可以不用再数数

结尾感谢DataWhale（注意：这不是广告！）和某三百斤的胖子…

small_salt_nuaa

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
task1http基础与小小小爬虫

http与互联网网页是由 HTML 、 CSS 、JavaScript 组成的。1）HTML 是用来搭建整个网页的骨架。2）CSS 是为了让整个页面更好看，包括我们看到的颜色，每个模块的大小、位置等都是由 CSS 来控制。 3）JavaScript 是用来让整个网页“动起来”，这个动起来有两层意思，一层是网页的数据动态交互，还有一层是真正的动，比如我们都见过一些网页上的动画，一般都是由 Ja...
复制链接

扫一扫