如何入门Python爬虫?

image.png
最近发现了原来有许多人都在问爬虫是要怎么学的,所以呢,就感觉到,可能大家缺少一份爬虫教程。

所以准备整一个简简单单的入门小教程,虽然不是很精深,但是教大家爬取一个小页面的内容还是可以的。

首先呢,说一下学习的方法

第一,你需要有一个小目标,比如说我当时的小目标其实是爬取知乎的文章,不知道你的小目标是什么呢?

第二,最好有一定的基础,能明白大体的语法,别到时候连 import 和 from 都不明白。

第三,边学边做,这点很重要,因为有的东西就是这样,我眼睛看会了但是我的脑子并不会,而你边学边做的话,遇到问题可以回去看或者百度查,要不到时候会很难受的。

第四,学会利用 GitHub,这里面有许多关于 python 的优秀库,很适合大家使用。

话不多说,切入正题。

不过还是要说一句题外话,其实这个入门我写过一篇类似的,叫爬虫基础,欢迎大家阅读。

首先呢,库很推荐使用的是 requests_html 当然使用 requests 也可以,这两个应该是现在最流行的了吧。

安装也是老生常谈的内容了。

pip install requests

主要说一下 requests 吧,安装就是这么简简单单。然后我们直接 import requests 就可以把库导入了。具体的一些获取方法就不在这里详谈了,百度有很多,当然我推荐的是权威文档 —->Requests 快速上手

一般来说,这些文档都是很实用的,我以前比较爱看书,现在其实比较爱看文档了。

然后嘞,我们既然知道了这个库,也明白了要去学习该如何使用了,接下来要做什么呢?接下来需要学习一下 html,哈哈真的,不是在逗你哦,因为你爬取的毕竟是网页,而网页是通过 html+css+JavaScript 来写的,不需要你明白他怎么写,只需要懂得这是干啥的就行了。

之后学习一下 re 正则,这个对爬虫来说真的很实用,比如说我的那篇文章,爬取知乎盐选,就是利用正则抓取下一页的跳转链接的。正则其实入门的话没必要怎么学,只需要知道怎么抓取指定的值就好了,之后再慢慢学下去。

然后再接下来学习 scrapy,来进行更进一步的爬取,大体的思路也就是这些,上手其实是和容易的,并且爬一些简单的站也是非常容易地,但是真正要爬一些有东西的网站还是很难得,另外就是没事看看别人的代码,对自己有很大的帮助,别人写的狗屁不通,你就要学习一下如何写的不像他那样,别人写的精益求精,你就要学习一下如何写的这么好,别人好的思路你学习,别人查的方法你反思,不断学习,勇攀高峰!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值