从0开始学习爬虫

网络爬虫介绍:

1.网络爬虫,又称为网页蜘蛛,它可以根据网页的URL爬去网页内的内容URL就是在浏览器里输入的网址,自动地抓取万维网信息的程序或者脚本.
例如:https://www.baidu.com
URL的格式由3部分来组成
1(protocol): // 2(hostname[:port]) /3(path) /

  • (1).第一部分就是协议,例如百度使用的就是https协议上面举得例子百度就是使用https协议的;

  • (2).第二部分是主机名还有端口号,协议为http的默认端口号为80
    例如http://www.baidu.com:80这样也是可以访问百度的 而https的默认端口为443
    例如https://www.baidu.com:443

  • (3).第三部分就是你要访问的地方的具体地址
    例如 https://www.bilibili.com/ 这是哔哩哔哩的首页 在首页后面加上ranking https://www.bilibili.com/ranking/ 就是热播排行榜了
    举个例子如果你想找你朋友一起去外面玩 但是你只知道他在xx小区但是你不知道在他在哪个几楼 单元 几零几
    https://www.bilibili.com/这个首页就相当于你知道你朋友的家在的小区 而ranking是你朋友的详细地址
    你只去你朋友在的小区是找不到你朋友的 如果你知道你朋友在几号楼哪个单元然后几零几(https://www.bilibili.com/ +
    ranking)是不是就可以直接去你朋友家里找他了

2.想要学爬虫先学习写爬虫必须要学会的技能 就是审查元素了

审查元素是Google Chrome浏览器提供的一项服务功能,用户只需右键点击“审查元素”(名字),即可打开Chrome Inspector,获得网页各种元素的加载时间、javascript函数、object等信息。

(强烈推荐大家使用谷歌浏览器,不要用别的浏览器)
按F12可以出现这个界面
在这里插入图片描述
或者右键页面选择检查也可以打开审查元素
在这里插入图片描述

浏览器就是作为客户端从服务器端获取信息,然后将信息解析,并展示给我们的。审查元素是可以改变已经加载出来的代码的,但是我们修改的信息不会回传到服务器,服务器存储的 HTML 信息不会改变,只要你一刷新它你改的代码就会全部消失。

3.说了那么多开始写一点简单的代码吧!

  1. 首先大家先把requests安装了
  2. 在终端中输入pip install requests这里建议如果没改pip镜像源的话先去改一下镜像源,具体怎么改镜像源可以去查一查
    或者可以使用pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple/这个是清华的镜像源
    如果没改镜像源的话下载会很慢
  3. requests库基本方法介绍
方法说明
requests.request()构造一个请求,支撑一下各方法的基础方法
requests.get()获取HTML网页的主要方法,对应于HTTP的GET
requests.head()获取HTML网页头信息的方法,对应于HTTP的HEAD
requests.post()向HTML网页提交POST请求的方法,对应于HTTP的POST
requests.put()向HTML网页提交PUT请求的方法,对应于HTTP的PUT
requests.patch()向HTML网页提交局部修改请求,对应于HTTP的PATCH
requests.delete()向HTML页面提交删除请求,对应于HTTP的DELETE
# 导requests包
import requests
if __name__ == '__main__':
    page = "https://tuijian.hao123.com/?type=rec/"
    req = requests.get(page)
    # 编码可以打开检查元素搜charset 
    req.encoding = 'utf-8'
    print(req.text)

获取到了头条推荐的源代码,这就是一个最最最简单的爬虫了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值