1.很多人一上来就要爬虫,其实没有弄明白要用爬虫做什么,最后学完了却用不上。
大多数人其实是不需要去学习爬虫的,因为工作所在的公司里有自己的数据库,里面就有数据来帮助你完成业务分析
什么时候要用到爬虫呢?
当工作中没有你需要的数据,你必须要从上网搜集一些数据时,这时候就可以利用爬虫模拟浏览器打开网页,获取网页中我们想要的那部分数据,从而提高工作效率。 另外构建自动化表格也是可以用爬虫做到的,也就是通过爬虫搜集特定数据,然后自动保存到Excel中实现自动化表格的构建。 不管是构建爬虫,还上自动化表格,这其中爬虫所要做的包括4步流程(下图),模拟浏览器发起请求(获取代码)->获取响应内容(获取爬到的内容)->解析内容(从爬到的内容里面提取有用的数据)->保存数据(把爬到的数据保存到数据库或Excel文件)中。
2.实现爬虫的工具有有两种,一种是傻瓜式的爬虫工具,这种工具通过可视化界面就可以操作,上手快。另一个种是通过Python编程来爬虫,这种需要一定的学习成本。
<