大数据
文章平均质量分 75
喵Ja
通往财富自由ing
--一位爱猫的程序猿
展开
-
Spark RDD算子
目录parallelizemakeRDDtextFilefiltermapflatMapdistinctunionintersectionsubtractcartesianmapToPairflatMapToPaircombineByKeyreduceByKeyfoldByKeySortByKeyparallelize调用SparkContext 的 parallelize(),将一个存在的集合,变成一个RDD,这种方式试用于学习spark和做一些spark的测试scala版本def paralle原创 2020-11-06 14:51:13 · 327 阅读 · 0 评论 -
spark的安装详细步骤
1.下载spark地址http://spark.apache.org/downloads.html2.把下载好的压缩包拖拽到虚拟机的software(自己建的)目录下3.进入到software目录里面把压缩包解压到 /opt 目录下cd /softwaretar -zxvf spark-2.4.5-bin-hadoop2.6.tgz -C /opt/4.进入opt目录里面将安装好的spark改名cd /optmv spark-2.4.5-bin-hadoop2.6 spark2455.原创 2020-10-30 14:56:00 · 8617 阅读 · 4 评论 -
hive自定义函数(java)
目录流程准备代码打jar包流程java 继承UDF类编写udf函数(evaluate())(一个类一个方法)打fat包(包括所有依赖文件)把jar包放到linux上临时udf函数在hive命令行中使用add jar jar包路径即可加载到临时系统中create temporary function 函数名() as ‘方法的全类名’永久udf函数在liunx命令行使用hdfs命令把jar包上传到hdfs路径create function 函数名 as ‘方法的全类名’us原创 2020-09-22 17:11:31 · 738 阅读 · 1 评论 -
Hive总结及常见语法
目录第1章 hive入门1.1 什么是hive1.2 Hive的优缺点1.2.1 优点1.2.2 缺点1.3 Hive架构原理1.4 Hive和数据库比较1.4.1 查询语言1.4.2 数据存储位置1.4.3 数据更新1.4.4 索引1.4.5 执行1.4.6 执行延迟1.4.7 可扩展性1.4.8 数据规模第2章 Hive 安装2.1 Hive 安装部署2.2 将本地文件导入Hive案例2.3 MySql安装2.4.1 安装包准备2.4.2 安装MySql服务器2.4.3 安装MySql客户端2.4.4原创 2020-10-22 14:31:16 · 9116 阅读 · 1 评论 -
scala之Array的方法
Array(集合、序列)++++:+:和 :+/: 和 :\addStringaggregateapplycanEqualcharAtclonecollectcollectFirstcombinationscontains 和 containsSlicecopyToArraycopyToBuffercorrespondscountdiffdistinctdropdropRightdropWhileendsWithexistsfilterfilterNotfindflatMapflattenfoldfoldL原创 2020-10-29 19:44:27 · 218 阅读 · 0 评论 -
sqoop总结及常见语法
目录第一章 Sqoop简介第二章 Sqoop的原理第三章Sqoop安装3.1下载并解压3.2 修改配置文件3.3 拷贝 JDBC 驱动验证Sqoop3.5测试Sqoop是否能够成功链接数据库第四章 Sqoop的简单使用案列4.1导入数据4.1.1RDBMS到HDFS4.1.2 RDBMS 到 Hive4.1.3 RDBMS 到 Hbase4.2 导出数据4.2.1 HIVE/HDFS到RDBMS4.3 脚本打包第五章 Sqoop 一些常用的命令及参数5.1 常用命令列举5.2命令&参数详解5.2.1原创 2020-09-29 22:46:47 · 1941 阅读 · 0 评论 -
Hbase权限控制
Hbase权限控制简介 Hbase的权限控制是通过AccessController Coprocessor协处理器框架实现的,可实现对用户的RWXCA的权限控制。配置:hbase-site.xml<property> <name>hbase.security.authorization</name> <value>true</value></property><property> <name&原创 2020-09-24 16:31:54 · 532 阅读 · 0 评论 -
HBase表的数据结构
一.Table传统数据库一个表的结构如下姓名年龄性别成绩wuyifan18man100john20man98转换成HBase数据库的表结构就如下所示infoscoreRow_keyinfo:name ,info:age ,info:sexscore:name, score:score//创建表和列族//create 'school','info','score'//==创建列族中的列和数据//put 's原创 2020-09-24 18:31:35 · 631 阅读 · 0 评论 -
HBase安装配置和Hive安装配置
目录Hbase的安装配置Hive安装配置Hbase的安装配置安装: 前置条件最少安装了Hadoop(如果只是安装单机版hbase,zookeeper使用hbase内置的即可)如果需要安装伪分布式或完整分布式则需要先安装zookeeper 下载hbase(建议下载hbase-1.2.0)并解压至/opt/目录下,修改解压后的名字为hbasetar -zxvf hbase-1.2.0-cdh5.14.2.tar.gz -C /opt/mv hbase-1.2.0-cdh5.14.2/ hb原创 2020-09-15 16:01:28 · 647 阅读 · 0 评论 -
HA高可用集群搭建
前提需求:完全分布式zookeeper配置与时间同步配置HA集群配置1.core-site.xml1.core-site.xml设置name集群的名称设置zookeeper 2181地址<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://ns</value>原创 2020-09-15 15:09:18 · 179 阅读 · 0 评论 -
zookeeper的配置和zookeeper集群的时间同步设置
文章目录一.ZooKeeper下载安装二.ZooKeeper配置三.配置集群的时间同步四.启动和关闭ZooKeeper并验证ZooKeeper下载安装拖入opt目录解压安装: tar -zxvf zookeeper-3.4.6.tar.gz删除安装包 rm -rf zookeeper-3.4.6.gar.gz配置全局变量 vi /etc/profile在打开的文件中添加如下两行:export ZK_HOME=/opt/zookeeper-3.4.6exp原创 2020-09-15 09:31:15 · 208 阅读 · 0 评论 -
hadoop运行模式(本地运行模式,伪分布模式,完全分布模式,配置时间同步)
Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。Hadoop官方网站:http://hadoop.apache.org/本地运行模式官方Grep案例创建在hadoop文件下面创建一个input文件夹[root@hadoop101 hadoop]# mkdir input将Hadoop的xml配置文件复制到input[root@hadoop101 hadoop]# cp etc/hadoop/*.xml input执行share目录下的MapReduce程原创 2020-09-08 19:16:13 · 706 阅读 · 0 评论 -
2020-08-23HDFS客户端操作
1. HDFS客户端环境准备根据自己电脑的操作系统拷贝对应的编译后的hadoop jar包到非中文路径(例如:E:\hadoop)配置HADOOP_HOME环境变量配置Path环境变量创建一个Maven工程HdfsClientDemo导入相应的依赖坐标+日志添加版本根据你们自己的情况改 <dependencies> <dependency> <groupId>junit</groupId>原创 2020-09-08 14:27:40 · 246 阅读 · 0 评论 -
2020-08-21Hadoop在Linux中的安装配置
资源 https://pan.baidu.com/s/1uPa7TAFNEJ5ZSUEaJW1VYg密码:fqi0进入/opt 把文件拖进去cd /opt解压 tar -zxvf hadoop-2.6.0-cdh5.14.2.tar.gz配置环境: vi /etc/profile在末行输入export PATH USER LOGNAME MAIL HOSTNAME HISTSIZE HISTCONTROLexport JAVA_HOME=/opt/jdk1.8.0_22原创 2020-09-03 22:59:28 · 165 阅读 · 0 评论