网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
我使用的是八爪鱼采集器
1.简介
八爪鱼数据采集系统以完全自主研发的分布式云计算平台为核心,可以在很短的时间内,轻松从各种不同的网站或者网页获取大量的规范化数据,帮助任何需要从网页获取信息的客户实现数据自动化采集,编辑,规范化,摆脱对人工搜索及收集数据的依赖,从而降低获取信息的成本,提高效率。
2.主要功能
简单来讲,使用八爪鱼可以非常容易的从任何网页精确采集你需要的数据,生成自定义的、规整的数据格式。八爪鱼数据采集系统能做的包括但并不局限于以下内容:
- 金融数据,如季报,年报,财务报告, 包括每日最新净值自动采集;
- 各大新闻门户网站实时监控,自动更新及上传最新发布的新闻;
- 监控竞争对手最新信息,包括商品价格及库存;
- 监控各大社交网站,博客,自动抓取企业产品的相关评论;
- 收集最新最全的职场招聘信息;
- 监控各大地产相关网站,采集新房二手房最新行情;
- 采集各大汽车网站具体的新车二手车信息;
- 发现和收集潜在客户信息;
- 采集行业网站的产品目录及产品信息;
- 在各大电商平台之间同步商品信息,做到在一个平台发布,其他平台自动更新。
下图为关键词采集的截图