1. 把网页抓下来(clawler) 寻找一个方式,找到所有网页的url 通过手段,把网页保存到本地 2. 把网页解析出来(parser) 正确解析内容 合理的储存方式: 爬取的难度取决于: 1 反爬虫的策略 2 网页的组织结构