[翻译]<Web Scraping with Python>Chapter 0.前言

最新推荐文章于 2024-07-09 23:56:48 发布

记录一点进步一点

最新推荐文章于 2024-07-09 23:56:48 发布

阅读量322

点赞数 1

分类专栏： Scraping 文章标签：网络爬虫 python

Scraping 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

                    
                        
                    
                    为什么要选择网络爬虫(Web Scraper) 
爬虫可以一次收集大量信息，而不必拘泥于浏览器一个一个获取信息。这些信息可以在数据库中一次看成千上万条。
API相当出色：可以很方便的提供格式化数据，为何不用API获取信息？ 
 ——当然如果有API的话，建议用API获取信息。但是不一定有API可供使用。 
 1， 从不同网站上收集信息可能没有统一的API。 
 2，获取的数据很少，网站管理员认为没必要授权API给这样的情况。 
 3，网络上的数据架构或许不适合或者技术不适合提供API。 
 4，即使API存在，能用API获取的数据大小、速率、种类、格式等，也可能不适合你。 
 所以如果你能用浏览器看的话，那就能用Python脚本获取，也就能存在数据库中，当然事实上就能随意使用这些数据做任何你想做的。 
 有很多项目的基础是几乎无限的数据：市场预测、机器语言翻译、药品分析等等。即使是在艺术的前沿，也有其用武之地。比如2006年的Jonathan Harris和Sep Kamvar的项目”We Feel Fine”就是从很多博客上爬取以”I feel”或”I am feeling”开头的短语组成的。 
 第一部分包含以下内容： 
 1，从网站获取HTML信息 
 2，解析成目标信息 
 3，存储成目标信息 
 4，到其他页面重复以上1～3的操作 
 接下来，我们就开始正式的学习