- 博客(11)
- 收藏
- 关注
原创 数据采集、传输、同步、集成、整合、抓取、提取、迁移、收集、抽取等概念各是什么?
数据采集:又称数据获取,是利用工具或者技术,从系统外部获取数据并输入到系统内部的一个过程。数据传输:数据传输是按照一定的规程,通过一条或多条数据链路,将数据从数据源传输到数据终端,它的主要作用是实现点与点之间的信息传输和交换。数据同步:数据同步是通过直连、同步文件或日志解析的方式,将不同物理位置的目标数据系统中的数据内容进行更新,使之与源数据系统中的数据相同的过程。数据集成:数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。数据整合:数据整合是把不同
2020-11-24 16:04:28 6181 2
原创 R的基础变量及数据类型
注释为何我将注释放在最开头讲,就是因为,学会了注释的使用方式之后,能够在代码中通过注释的方式,让整个代码结构看上去更佳易懂。注释在运行的时候并不会被执行其中的内容,只是便于帮助我们理解代码的。R语言中的注释,是通过井号#的方式放在代码前,比如: #这是一行注释 # 这一也是一行注释两行注释看上去一样,无非是第二行多了一个空格,很多人会习惯在井号后面加空格,是为了防止有些时候...
2019-08-25 15:26:50 2897
原创 R语言开发工具RStudio的安装
下载之前咱们安装好了R语言也看到了R语言的编译器,但是,它原生的编译器界面是比较简陋的,因此,我们可以选择一个可视化和交互性较为友好的编译器——RStudio,下载地址: https://www.rstudio.com/products/rstudio/download/点击下载免费版,页面会跳到安装选择:点击红线的即可进行下载安装注意:RStudio必须要先安装R之后再进行打开R...
2019-08-25 09:18:53 1148
原创 R语言初识及安装
初识:R是一个用于统计计算很成熟的免费软件,可以将其当作一种计算机语言,实际上很多人也将其称之为“R语言”。它比C++、FORTRAN等简单得多,一般多被用在对数据进行统计、分析与挖掘等三个方面。特点:功能强大由于统计分析的重要性,早在1977年,著名的贝尔实验室的一个开发小组就已经开始一个名为“S”的研究项目。从“S”被研究成功到导入市场成为畅销产品“S-PLUS“,人们分析、显示和处...
2019-08-25 07:40:32 499
原创 spring boot\spring data与hadoop如何整合,以及解决tomcat冲突的问题
初衷:为将hadoop集成到Spring项目当中。一开始尝试直接导入hadoop依赖包,也是因为对依赖冲突不够了解,导致了tomcat中的若干依赖于hadoop中的依赖相互冲突。矛盾:针对于spring-boot-starter-web: <dependency> <groupId>org.springframework.boo...
2019-08-24 20:32:23 1678 1
原创 MapReduce通过两条路径,两个map,一个job,写到两张HBase表中的做法
emmm我知道可以使用一个map和一个job写到多张表,但是,貌似找到别人像我这么做的,所以我就写出来试试map1:import org.apache.hadoop.hbase.io.ImmutableBytesWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import...
2019-02-23 20:23:27 840
原创 《hadoop权威指南》第九章中的NcdcStationMetadata类
百度查不到,谷歌查不到,具体的initialize方法自己能写出来又担心写出来的不对,于是上github找了作者的源码,不错,几乎是完全相同。import org.apache.hadoop.io.IOUtils;import java.io.*;import java.util.HashMap;import java.util.Map;public class NcdcStation...
2019-01-31 19:54:35 225
原创 编译hadoop-2.6.0,安装所有native类库
编译hadoop-2.6.0首先,一开始的问题是在学习《hadoop权威指南》的时候学到了压缩这节,就去了解了一下压缩需要安装类库,hadoop-2.6.0/lib/native库里面有东西,hadoop checknative却显示里面全部都是false。查了资料才发现,这说明hadoop是未编译的。我这里用的是CentOS6系统。最好全程使用root用户来操作,省的遇到麻烦。步骤很长,但请...
2019-01-31 19:05:44 1446
原创 《Hadoop权威指南》中第九章的NcdcStationMetadataParser类
受够了百度一大堆抄书党,书里没有明确给出的一些类,可以去翻作者的github,地址是https://github.com/tomwhite/hadoop-book/一些通用的类放在common包下。下面给出来这个9-12的例子所引用的类——NcdcStationMetadataParser,这里用到的实例数据《气象站ID-气象站名》可以从ftp://ftp.ncdc.noaa.gov/pub/...
2019-01-31 17:18:03 207
原创 hadoop辅助排序IntPair类问题
照着《hadoop权威指南》往下走,在9.6案例中,出现了一个IntPair类,在后续有讲到,跟之前的TextPair类似,但并没有详细说明。这里给出IntPair类。import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.i...
2019-01-31 10:12:49 848 1
原创 解决SequenceFile doesn't work with GzipCodec without native-hadoop code!问题
解决SequenceFile doesn’t work with GzipCodec without native-hadoop code!问题照着Hadoop权威指南一直往下走,遇到了压缩的坑,以为完成了编译,就解决了问题,没想到问题还在后面。用的是Hadoop2.6.0出问题的代码是这一句://设置压缩格式SequenceFileOutputFormat.setOutputCompr...
2019-01-30 17:44:30 1196
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人