![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
学习
文章平均质量分 51
张小涛_
一起进步
展开
-
使用scrapy-redis构建分布式爬虫
使用scrapy-redis构建的分布式爬虫 1.使用scrapy-redis类下的RedisSpider 2.将爬虫脚本继承RedisSpider 3.取消start_url,改为 redis_key = "myspider:start_urls" 4.修改scrapy中的setting文件: #使用scrapy_redis的去重类 不使用scrapy默认的去重类 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" #使用scrap原创 2020-08-21 15:02:32 · 160 阅读 · 1 评论 -
线程总结
原创 2018-12-04 11:41:58 · 103 阅读 · 0 评论 -
Spring①
spring的Ioc ( inversion of control) ioc控制反转,程序员把创建对象的权利交给了spring,无需再关注对象的生命周期 以前:Person p=new Person(); 现在:Person p=spring容器.getBean("") 由spring容器负责 Ioc的步骤 a. 导入spring的依赖包 b. 编写实体类 c. 编写spring的核心配...原创 2018-12-04 21:44:15 · 112 阅读 · 0 评论 -
Hive总结
1.Hive的原理 hive是基于Hadoop的数据仓库工具。Hive就是在hadoop的基础上搭建了一层操作sql的接口,让我们可以使用hql来操作hive,由hive将这些hql翻译成mapreduce来处理数据,所以hive的底层仍然是mapreduce 2.Hive的内部表与外部表 内部表的概念:现在hive中建立一张表,然后向这个表添加数据,这样的表就叫内部表 外部表的概念:HDFS中已...原创 2018-12-07 21:38:42 · 148 阅读 · 0 评论 -
HBase总结
原创 2018-12-07 22:14:40 · 123 阅读 · 0 评论 -
Flume小结
原创 2018-12-05 21:22:08 · 175 阅读 · 0 评论 -
大数据面试题①
1、hadoop: 1)hadoop是大数据分析的完整生态系统,从数据采集,存储,分析,转运,再到页面展示,构成了整个流程 2)采集可以用flume, 3)存储用hbase,hdfs,mangodb就相当于hbase, 4)分析用Mapreduce自己写算法, 5)还有hive做数据仓库, 6)pig做数据流处理, 7)转储方面有sqoop,可以将hdfs中的数据转换存储到mysql,oracle...转载 2018-12-03 17:33:14 · 257 阅读 · 0 评论