task1http基础与小小小爬虫

http与互联网

网页是由 HTML 、 CSS 、JavaScript 组成的。
1)HTML 是用来搭建整个网页的骨架。
2)CSS 是为了让整个页面更好看,包括我们看到的颜色,每个模块的大小、位置等都是由 CSS 来控制。 3)JavaScript 是用来让整个网页“动起来”,这个动起来有两层意思,一层是网页的数据动态交互,还有一层是真正的动,比如我们都见过一些网页上的动画,一般都是由 JavaScript 配合 CSS 来完成的。

下面是一段简单的代码:
txt格式变为html,写入:

<!DOCTYPE html>
<html>
       <head>
        	<meta charset=''UTF-8''>
        	<title>demo</title>
        </head>#head部分结束
        <body>
        	<div id=''container''>
        		<div class=''wrapper''>#定义一个节点
        			<h1>hello world</h1>

        	        </div>
        	 </div>
        </body>
</html>

其他的一些功能:

<p>可添加段落</p>
<hr>定义一条水平线
<a href=www.baidu.com>添加一个链接</a>
<img scr=''图片地址''width=''宽度''height=''宽度''/>

若要对文字进行颜色和格式的调整,可采用CSS功能。使用CSS选择器来定位节点。
例如:可在head中添加:

<style type="text/css">
	.wrapper{
		text-align:center;
		}
	</style>
	
在body中可以在对应节点中使用.wrapper,节点内容可使用wrapper功能。

<div class="wrapper">	

一个关于豆瓣的小爬虫

一般步骤:
1.访问站点
2.定位信息
3.得到并处理信息(扫垃圾?
随便爬一个网站的elements内容出来

import requests
url='随便添加一个网址'
res=requests.get(url)
text=res.text

这样text里面就写了待爬取网页element中的内容啦!
接下来对信息进行定位,在开发者状态下选中要爬取的内容,拿到对应的标签,然后采用大佬口中非常low的find函数去定位…

with open('爬到的element内容''w+') as e:

e.write(text[text.find('找到的标签')+n:text.find('</pre')-n])

自己把n数出来…好菜…据说后面有Xpath就好惹!

进入正题:爬爬爬豆瓣top250

直接上带注释的代码。and解析和思考就写在代码后面儿,以防青年痴呆的自己忘记…

import requests
import os

headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"}#搞一个头才能暗搓搓爬别人

for offset in range(0,250,25):#好多页好多页的豆瓣需要包一个循环鸭
	url = 'https://movie.douban.com/top250?start=' + str(offset) +'&filter='
	intems=[]
	res=requests.get(url,headers=headers)
	text=res.text#这里就实现了一个网页的element的提取
	for a in range(25):#一个页面提取25条信息
		text=text[text.find('alt')+3:]
		texts=text.split('"')#可以看到后台是以"分割我们想要提取的信息,所以我们也以"为分隔符,分割出字符串
		name=texts[1]
		image=texts[3]#注意要提取的信息在text中的位置,又是一通无脑数数
		items.append((name,image))
	for item in intems:
		print(item)

补充说明一哈25次的小循环以防忘记(误):
这个很low的find函数定位到了我们之前在开发者工具中的标签alt,返回了它的a在的位置,这个位置是0,那么数出来3刚好是=所在的位置,左闭右开,则我们提取出的text就是="name"scr=“image”…这样的内容了。采用split函数,以"为分隔符,那么text[0]就是=,text[1]就是name,text[2]就是scr=,text[3]就是image。拿出我们需要的内容就可以啦!

结尾

task1就这样子吧…希望task2能有一点点进步…可以不用再数数

结尾感谢DataWhale(注意:这不是广告!)和某三百斤的胖子…

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值