标题中的英文首字母大写比较规范,但在python实际使用中均为小写。
2018年9月6日笔记
IDE(Intergrated development Environment),集成开发环境为jupyter notebook和Pycharm
操作系统:Win10
语言及其版本:python3.6
0.观察网页
网页链接:http://finance.eastmoney.com/news/cgsxw_1.html
打开网页,红色方框标注出爬取的文章,效果如下图所示。
1 新建爬虫工程
新建爬虫工程命令:scrapy startproject EastMoney
进入爬虫工程目录命令: cd EastMoney
新建爬虫文件命令: scrapy genspider money finance.eastmoney.com
2.编辑items.py文件
共需要收集8个字段信息:网站website、页面链接url、标题title、摘要abstract、内容content、日期datetime、来源original、作者author