1.Spider(整个爬虫的调度框架) 2.Downloader(页面下载) 3.PageProcessor(链接提取和页面分析) 4.Scheduler(URL管理) 5.Pipeline(离线分析和持久化)