Python网络爬虫——前提知识大科普
这是学习Python网络爬虫的前提知识,就是给大家科普一下爬虫是什么,爬虫能干什么,学习爬虫要学习什么内容。
爬虫是什么?
我直接给出百度百科的地址吧,上面有关于网络爬虫的详细介绍 。我肯定是写不出这么好这么详细的内容了。点击跳转百度百科
爬虫能干什么?
能干什么?那就是三个字:抓数据。在互联网上的公开的数据,理论上它都能够抓取,然后提取需要的内容,最后保存到相应的文本或者数据库。
为什么要用Python做爬虫?
这个问题其实很简单,无非就是“方便快捷”四个大字。这全都要依赖于强大的Python社区和Python强大的第三方库,等你开始学习之后就能够深刻体会到Python官方和第三方库的强大之处。
要学Python的什么内容?
首先,当然是要前行学习Python的基础语法知识了。然后,就要学习专门用于Python网络爬虫的库,比如:request,Beautiful Soup,re 等等。
爬虫三大步骤
- 抓取数据
通过爬虫模拟浏览器去浏览网页,然后下载网页的源代码。 - 提取数据
通过Python的各种解析库提取有用的信息,过滤没用的信息。 - 保存数据
直接把整理好的数据保存。