自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 数据采集、传输、同步、集成、整合、抓取、提取、迁移、收集、抽取等概念各是什么?

数据采集:又称数据获取,是利用工具或者技术,从系统外部获取数据并输入到系统内部的一个过程。数据传输:数据传输是按照一定的规程,通过一条或多条数据链路,将数据从数据源传输到数据终端,它的主要作用是实现点与点之间的信息传输和交换。数据同步:数据同步是通过直连、同步文件或日志解析的方式,将不同物理位置的目标数据系统中的数据内容进行更新,使之与源数据系统中的数据相同的过程。数据集成:数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。数据整合:数据整合是把不同

2020-11-24 16:04:28 6026 2

原创 R的基础变量及数据类型

注释为何我将注释放在最开头讲,就是因为,学会了注释的使用方式之后,能够在代码中通过注释的方式,让整个代码结构看上去更佳易懂。注释在运行的时候并不会被执行其中的内容,只是便于帮助我们理解代码的。R语言中的注释,是通过井号#的方式放在代码前,比如: #这是一行注释 # 这一也是一行注释两行注释看上去一样,无非是第二行多了一个空格,很多人会习惯在井号后面加空格,是为了防止有些时候...

2019-08-25 15:26:50 2851

原创 R语言开发工具RStudio的安装

下载之前咱们安装好了R语言也看到了R语言的编译器,但是,它原生的编译器界面是比较简陋的,因此,我们可以选择一个可视化和交互性较为友好的编译器——RStudio,下载地址: https://www.rstudio.com/products/rstudio/download/点击下载免费版,页面会跳到安装选择:点击红线的即可进行下载安装注意:RStudio必须要先安装R之后再进行打开R...

2019-08-25 09:18:53 1117

原创 R语言初识及安装

初识:R是一个用于统计计算很成熟的免费软件,可以将其当作一种计算机语言,实际上很多人也将其称之为“R语言”。它比C++、FORTRAN等简单得多,一般多被用在对数据进行统计、分析与挖掘等三个方面。特点:功能强大由于统计分析的重要性,早在1977年,著名的贝尔实验室的一个开发小组就已经开始一个名为“S”的研究项目。从“S”被研究成功到导入市场成为畅销产品“S-PLUS“,人们分析、显示和处...

2019-08-25 07:40:32 481

原创 spring boot\spring data与hadoop如何整合,以及解决tomcat冲突的问题

初衷:为将hadoop集成到Spring项目当中。一开始尝试直接导入hadoop依赖包,也是因为对依赖冲突不够了解,导致了tomcat中的若干依赖于hadoop中的依赖相互冲突。矛盾:针对于spring-boot-starter-web: <dependency> <groupId>org.springframework.boo...

2019-08-24 20:32:23 1632 1

原创 MapReduce通过两条路径,两个map,一个job,写到两张HBase表中的做法

emmm我知道可以使用一个map和一个job写到多张表,但是,貌似找到别人像我这么做的,所以我就写出来试试map1:import org.apache.hadoop.hbase.io.ImmutableBytesWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import...

2019-02-23 20:23:27 827

原创 《hadoop权威指南》第九章中的NcdcStationMetadata类

百度查不到,谷歌查不到,具体的initialize方法自己能写出来又担心写出来的不对,于是上github找了作者的源码,不错,几乎是完全相同。import org.apache.hadoop.io.IOUtils;import java.io.*;import java.util.HashMap;import java.util.Map;public class NcdcStation...

2019-01-31 19:54:35 215

原创 编译hadoop-2.6.0,安装所有native类库

编译hadoop-2.6.0首先,一开始的问题是在学习《hadoop权威指南》的时候学到了压缩这节,就去了解了一下压缩需要安装类库,hadoop-2.6.0/lib/native库里面有东西,hadoop checknative却显示里面全部都是false。查了资料才发现,这说明hadoop是未编译的。我这里用的是CentOS6系统。最好全程使用root用户来操作,省的遇到麻烦。步骤很长,但请...

2019-01-31 19:05:44 1432

原创 《Hadoop权威指南》中第九章的NcdcStationMetadataParser类

受够了百度一大堆抄书党,书里没有明确给出的一些类,可以去翻作者的github,地址是https://github.com/tomwhite/hadoop-book/一些通用的类放在common包下。下面给出来这个9-12的例子所引用的类——NcdcStationMetadataParser,这里用到的实例数据《气象站ID-气象站名》可以从ftp://ftp.ncdc.noaa.gov/pub/...

2019-01-31 17:18:03 192

原创 hadoop辅助排序IntPair类问题

照着《hadoop权威指南》往下走,在9.6案例中,出现了一个IntPair类,在后续有讲到,跟之前的TextPair类似,但并没有详细说明。这里给出IntPair类。import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.i...

2019-01-31 10:12:49 837 1

原创 解决SequenceFile doesn't work with GzipCodec without native-hadoop code!问题

解决SequenceFile doesn’t work with GzipCodec without native-hadoop code!问题照着Hadoop权威指南一直往下走,遇到了压缩的坑,以为完成了编译,就解决了问题,没想到问题还在后面。用的是Hadoop2.6.0出问题的代码是这一句://设置压缩格式SequenceFileOutputFormat.setOutputCompr...

2019-01-30 17:44:30 1166

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除