![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据学习
就问你吃不吃药
这个作者很懒,什么都没留下…
展开
-
大数据-Hadoop学习笔记01
1.安装Hadoop前置条件:如果想搭建个人集群,硬件需要准备合适的PC机,软件需要JDK、Hadoop安装包,VMvare虚拟机安装包、以及linux系统安装包,下面分别对应下载路径JDK(选择1.8):http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.htmlHadoop:h原创 2017-03-09 20:53:24 · 320 阅读 · 0 评论 -
Spark2.2.0源码编译打包
下载Spark2.2.0源码在Spark官网下载源码,选着Source Code下载即可(也可以git clone spark源码),下载之后的tar包传入机器对应位置解压即可。 安装Maven并配置在环境变量里设置maven内存大小 开始编译由于Hadoop版本使用的是2.7.3,并且需要hive支持,所以编译时需要指定版本不需要打安装包编译命令./build...原创 2018-03-22 17:55:59 · 928 阅读 · 0 评论 -
Hive自定义UDF函数
1 编写UDF类编写自定义函数需要继承'org.apache.hadoop.hive.ql.exec.UDF'类,可以通过Maven添加,pom文件中加入(版本号和当前Hive一致即可):<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>0.13.1</转载 2017-10-11 09:15:11 · 899 阅读 · 0 评论 -
Spark SQL简单操作演示(含导出表)
Spark SQL前身 是Shark,由于Shark对于Hive的太多依赖制约了Spark的发展,Spark SQL由此产生。 Spark SQL只要在编译的时候引入Hive支持,就可以支持Hive表访问,UDF,SerDe,以及HiveQL/HQL 启动spark-sql$>spark-sql 16/05/15 21:20:55 WARN NativeCodeLoader: Unable转载 2017-10-27 09:26:54 · 1111 阅读 · 0 评论 -
大数据-Hadoop学习笔记10
32.考查Hadoop的底层ipc通信IPC进程间通信(inter process communication) RPC远程过程调用(remote procedure call)1.实现原理【Client】 1.Client.class,且遵循VersionProtocal协议 2.通过代理和服务器端打交道【Server】 1.Server.class,且遵循Versi原创 2017-05-01 10:38:42 · 194 阅读 · 0 评论 -
关于DStream的输出(foreachRDD)操作
输出操作允许将Dstream的数据推送到外部系统,例如数据库或文件系统。由于输出操作实际上允许外部系统使用变换后的数据,所以他们触发所有DStream变换的实际执行(类似于RDD的action操作)。目前定义了以下输出操作:使用foreachRDD的设计模式dstream.freachRDD是一个强大的语句,允许将数据发送到外部系统。但是,了解如何正确有效地使用这个语句很重要。下面提供以下常见的错翻译 2017-05-12 13:54:26 · 2056 阅读 · 1 评论 -
大数据-Hadoop学习笔记08
27.Hadoo序列化【Text类型】hadoop的Text对应java的java.lang.String【基本操作】public void test1() throws Exception { Text txt = new Text("hello world"); int v = txt.charAt(0);原创 2017-04-25 15:04:19 · 194 阅读 · 0 评论 -
大数据-Hadoop学习笔记07
25.基于文件的数据结构 对于某些应用,我们需要一种特殊的数据结构来存储自己的数据。对于基于MapReduce的数据处理,将每个二进制数据大对象单独放在各自的文件中不能实现可扩展性,所以,Hadoop为此开发了很多高层次的容器1.sequenceFile(key-value)【查看sequenceFile】hdfs dfs -text /xx.seq【写操作】@Test原创 2017-04-09 14:05:06 · 229 阅读 · 0 评论 -
大数据-Hadoop学习笔记09
30.MapReduce mapreduce任务过程分为两个处理阶段:map阶段和reduce阶段。每个阶段都以k-v对作为输入和输出,其类型由开发者选择。 map阶段的输入时NCDC原始数据。我们选择文本格式作为输入格式,将数据集的每一行作为文本输入。1.编写MR程序【创建mapper】public class MyMaxTempMapper extends Mapper<Lon原创 2017-04-25 22:11:03 · 280 阅读 · 0 评论 -
大数据-Hadoop学习笔记04
12.使用hadoop hdfs API访问hdfs文件系统1.Configuration配置对象,加载配置文件addDefaultResource(core-default.xml) 从classpath加载addDefaultResource(pdfs-site.xml)2.FileSystemDistributedFileSystem,是FileSystem的一个实现用原创 2017-03-19 20:12:28 · 351 阅读 · 0 评论 -
大数据-Hadoop学习笔记05
19.滚动编辑日志—融合镜像1.融合编辑日志$>hfs dfsadmin -rollEdits2.融合镜像文件(需在安全模式下执行) hdfs dfsadmin -saveNamespace3.hadoop安全与非安全模式 如果集群处于安全模式,不能执行一些重要操作,集群启动完成后自动进入安全模式1.安全模式操作 -查看当前模式状态 $>hdfs dfsadmin原创 2017-03-31 22:34:22 · 352 阅读 · 0 评论 -
大数据-Hadoop学习笔记03
hadoop原创 2017-03-15 21:58:46 · 398 阅读 · 0 评论 -
大数据-Hadoop学习笔记02
5. 配置Hadoop(完全分布式)1.准备几台虚拟机2.安装jdk,配置环境变量,需同步至每台机器3.安装hadoop,配置环境变量,需同步至每台机器4.安装ssh服务,保证机器之间可以无密登录这里提供两个功能脚本,方便同步操作机器(可将脚本放在/usr/local/bin/目录下并给够权限) 1.通过rsync代替scp远程传输文件,主要用于备份和镜像,支持链接原创 2017-03-13 22:19:59 · 256 阅读 · 0 评论 -
Centos6.7安装Docker1.7.1
Docker安装1. 更新yum源1.1备份yum源 mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup1.2下载国内源(这里使用阿里云的yum源) CentOS 5 wget -O /etc/yum.repos.d/CentOS-Base.repo http...原创 2018-03-29 09:53:33 · 1604 阅读 · 0 评论