自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (1)
  • 收藏
  • 关注

原创 Windows环境下自动化爬虫搭建及数据清洗(Kettle)

根据业务需求,需要对Amazon电商平台中某个店铺下所有的SKU信息进行监控,数据更新周期为每天。 所使用的爬虫框架为scrapy,大致任务是从数据库中获取当前店铺的所有产品的ASIN,随后进行拼接产品url,爬取主要内容为产品星级、Rating数量、Reviews数量、大类排名及小类排名等。 自动化爬虫搭建步骤: 1.在爬虫脚本目录下构建autorun.bat,用于后续启动爬虫脚本,scrapy crawl 后面跟着的是spider文件里的name的值 2.按下Win+R,并且输入taskschd.m

2021-05-10 16:08:48 902 3

原创 使用scrapy-redis构建分布式爬虫

使用scrapy-redis构建的分布式爬虫 1.使用scrapy-redis类下的RedisSpider 2.将爬虫脚本继承RedisSpider 3.取消start_url,改为 redis_key = "myspider:start_urls" 4.修改scrapy中的setting文件: #使用scrapy_redis的去重类 不使用scrapy默认的去重类 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" #使用scrap

2020-08-21 15:02:32 166 1

原创 HBase总结

2018-12-07 22:14:40 129

原创 Hive总结

1.Hive的原理 hive是基于Hadoop的数据仓库工具。Hive就是在hadoop的基础上搭建了一层操作sql的接口,让我们可以使用hql来操作hive,由hive将这些hql翻译成mapreduce来处理数据,所以hive的底层仍然是mapreduce 2.Hive的内部表与外部表 内部表的概念:现在hive中建立一张表,然后向这个表添加数据,这样的表就叫内部表 外部表的概念:HDFS中已...

2018-12-07 21:38:42 155

原创 Flume小结

2018-12-05 21:22:08 183

原创 Spring①

spring的Ioc ( inversion of control) ioc控制反转,程序员把创建对象的权利交给了spring,无需再关注对象的生命周期 以前:Person p=new Person(); 现在:Person p=spring容器.getBean("") 由spring容器负责 Ioc的步骤 a. 导入spring的依赖包 b. 编写实体类 c. 编写spring的核心配...

2018-12-04 21:44:15 119

原创 线程总结

2018-12-04 11:41:58 110

转载 大数据面试题①

1、hadoop: 1)hadoop是大数据分析的完整生态系统,从数据采集,存储,分析,转运,再到页面展示,构成了整个流程 2)采集可以用flume, 3)存储用hbase,hdfs,mangodb就相当于hbase, 4)分析用Mapreduce自己写算法, 5)还有hive做数据仓库, 6)pig做数据流处理, 7)转储方面有sqoop,可以将hdfs中的数据转换存储到mysql,oracle...

2018-12-03 17:33:14 266

ChromeStandaloneSetup64.exe

Chrome浏览器的安装包,有需要的可以自行下载,版本有点低

2019-09-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除