-
获取网页
python有许多库来帮助我们获取网页,如urllib、requests等 ,这些库帮助我们实现HTTP请求操作,我们只需要解析数据结构中的Body部分即可。 -
提取信息(解析信息)
一种方法是采用正则表达式,当然该法易出错;
一种方法是根据网页结点属性、CSS选择器或XPath来提取网页信息,这一方法有专门的库如BeautifulSoup、pyquery、lxml等 。 -
保存数据
保存形式可以多样,可以是TXT,也可以是EXCEL,还可以是JSON,还可以写到数据库中。(我的目标 是形成EXCEL,以便 发日报 使用。) -
自动化程序
让爬虫代替人自动地快速大量爬取数据,即它在爬取时可以进行各种异常处理,错误重试等 操作。