一、爬虫的步骤 获取网页内容 http python Requests解析网页内容 html网页结构 python Beautiful Soup储存或分析 二、爬虫的原则 不爬取公民隐私不爬取受著作权保护的内容不爬取国家事务,尖端科学领域的计算机系统请求数量和频率不能过高不强行突破设防查询robot.txt文件确定哪些文件允许被爬取