爬虫
迷迷迷迷路的鹿鹿
keep curious keep hungry
展开
-
【爬虫】scrapy+selenium自动滚动页面爬取百度百科术语分类
看之前的贴就知道我最近对股票有点兴趣,可是我对股票一窍不通怎么办呢。发现了一个网站https://baike.baidu.com/wikitag/taglist?tagId=62991长这样:感觉很不错,一下子基本上涵盖了大多数的相关概念,往下翻了几下,是在太多了。一个个点不知道要看到什么时候,不如写个爬虫爬下来把。爬文字和网页很基础,直接看代码:import scrapyimpor...原创 2019-07-09 17:20:09 · 914 阅读 · 0 评论 -
【爬虫】scrapy爬取股票历史数据并保存成CSV文档
这个爬虫是接着上个爬虫做的,先送上传送门:https://blog.csdn.net/yao09605/article/details/94596341我们的目标网址是http://quotes.money.163.com/trade/lsjysj_股票代码.html股票代码的来源就是上个爬虫存到mongodb里面的股票列表先在terminal中新建项目:scrapy startpro...原创 2019-07-05 17:41:07 · 2823 阅读 · 1 评论 -
【爬虫】scrapy下载股票列表(四)——对接mongodb保存数据
本文是本项目最后一篇,撒花!前三篇传送门:【爬虫】scrapy下载股票列表(一)——对接selenium中间件:https://blog.csdn.net/yao09605/article/details/94147708【爬虫】scrapy下载股票列表(二)—— 内容解析及中间件模拟翻页:https://blog.csdn.net/yao09605【爬虫】scrapy下载股票列表(三...原创 2019-07-04 10:40:16 · 1307 阅读 · 0 评论 -
【爬虫】scrapy下载股票列表(三)—— 设置日志
有些爬虫需要多次运行,这里记录一下如何配置日志记录在settings.py中加入如下代码:import datetimeBOT_NAME = 'stock'SPIDER_MODULES = ['stock.spiders']NEWSPIDER_MODULE = 'stock.spiders'to_day = datetime.datetime.now()logfile_pat...原创 2019-07-03 14:16:12 · 314 阅读 · 0 评论 -
【爬虫】scrapy下载股票列表(二)—— 内容解析及中间件模拟翻页
上回做到把一个页面里面的整个HTML爬下来,下面我们要从中提取我们需要的数据。先试一下取一个数方法很简单,找到网页中对应的HTML代码,右键copy->copy Xpath def parse(self,response): stock_id = response.xpath('//*[@id="table_wrapper-table"]/tbody/tr[1]/td[2]/a...原创 2019-07-03 14:11:11 · 529 阅读 · 2 评论 -
【爬虫】scrapy下载股票列表(一)——对接selenium中间件
先送上传送门,scrapy中文网,画风清奇的使用说明网站:http://www.scrapyd.cn/doc/139.html安装完python就可以一键安装scrapy了pip3 install scrapy新建一个项目scrapy startproject stock看到如下输出:You can start your first spider with: cd st...原创 2019-06-29 16:30:36 · 869 阅读 · 0 评论 -
【爬虫】scrapy中import selenium 失败的解决方案
在使用selenium作为scrapy中间件的时候会发现import selenium失败,只有在scrapy中失败(不是所有人都有这个问题,我运气可能比较差)ModuleNotFoundError: No module named 'selenium'前提是已经安装了selenium,没安装的话pip install selenium打开pycharm中的preference,win...原创 2019-06-29 14:53:55 · 1486 阅读 · 2 评论