python爬虫—零—爬虫介绍

本文介绍了网络爬虫的基本概念和工作流程,包括如何使用requests库进行网页请求。通过审查元素来查找感兴趣的数据,并展示了在Firefox和Chrome中检查元素的方法。还提到了解决乱码问题以及查看网页源代码的快捷方式。明日将继续深入讲解。
摘要由CSDN通过智能技术生成

零、何为爬虫

网络爬虫(Web Spider) ,网络蜘蛛,这只蜘蛛就在“互联网”上爬来爬去。

通过网页的链接地址来寻找网页,从 网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。

爬虫的一般流程:

1、先获取网页的 html 文档

2、浏览器打开网页源代码分析各节点

3、获取数据

4、利用数据或存储数据

壹、审查元素

写爬虫一定少不了对元素的审查,这是极其重要的基础

检查元素这种方法可以很快的帮你找到你感兴趣地方的代码

firefox:感兴趣的地方 右击-->检查元素  快捷键:Fn+F12

chrome:感兴趣的地方 右击-->检查

你也可以直接查看网页源代码 右键-->查看页面源代码  快捷键:CTRL+U

贰、requests库

在python3中,我们可以使用urllib.request和requests进行网页请求

urllib.requests是内置库,只要你安装了python就能使用。

requests是一个很强大的第三方库,但是需要自己安装

安装requests库
pip install requests

接下来我们使用requests发送一个网络请求,去请求百度的页面

import requests
r = requests.get("https://www.baidu.com/")

如此,就能以get方式去请求百度,其他的post,put等方式与此类似

那么我们已经发出了请求,会得到怎样的回应呢?

--snip--

print(r.text)

结果: 我们看到有一些好像有一些乱码

我们可以通过下一行代码解决此问题

r.encoding = 'utf-8'

结果:

我们还可以定制请求头等等方法,详情可参考requests中文手册https://requests.readthedocs.io/zh_CN/latest/

叁、小结

好了,作为普及大概先说这么多,明天继续,本来今天是不想写的,因为今天事情比较多,但没办法,养成了习惯了,哈哈哈哈,那就写一篇短点的,明天在补回来,哎,不行,明天要体测,真要命啊。

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值