![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
BigEpicure
这个作者很懒,什么都没留下…
展开
-
Spark入门基础
Spark CoreSpark SQLMLlibGraphxspark和mapreduce的区别、spark运行框架Application:用户编写的Spark应用程序。Driver:Spark中的Driver即运行上述Application的main函数并创建SparkContext,创建SparkContext的目的是为了准备Spark应用程序的运行环境,在Spark中有SparkContext负责与ClusterManager通信,进行资源申请、任务的分配和监控等,当Executor部分原创 2020-09-22 19:18:21 · 220 阅读 · 0 评论 -
hive练习题(商店市场调查)
表数据:https://pan.baidu.com/s/1giOajxNUaU_Lc4jzTL2UnA提取码:cba4hive练习题建表:1、找出顾客最常用的信用卡2、找出客户资料中排名前五的的职位名称3、在美国女性最常用的信用卡4、按性别和国家进行客户统计/国家/工作/邮箱/语言/信用卡5、计算每月总收入6、计算每个季度的总收入7、按年计算总收入8、按工作日计算总收入9、按时间段计算总收入10、按时间段计算平均消费11、按工作日计算平均消费12、计算年、月、日的交易总数13、找出交易量最大的10个客户原创 2020-09-03 18:43:12 · 993 阅读 · 0 评论 -
HBase环境搭建
hbase安装包:https://pan.baidu.com/s/1jLQlOz2VgrwzWSY4hVvOaQ提取码:do01HBase环境搭建1、将压缩包拖入/opt/install/hadoop/目录下2、解压至/opt/bigdata/hadoop/,改名为hbase1203、配置文件vi hbase-env.sh4、配置文件vi hbase-site.xml5、配置文件vi regionservers6、软连接hadoop core-site.xml hdfs-site.xml 到hbase的原创 2020-09-03 08:09:37 · 197 阅读 · 0 评论 -
HBase数据库原理入门操作
HBase简介原创 2020-09-02 19:06:15 · 289 阅读 · 0 评论 -
大数据计算,hive出现数据倾斜的问题
hive数据倾斜描述hive 中产生数据倾斜的原因数据倾斜解决办法大小表joingroup bycount(distinct ...)参数调节描述数据倾斜是进行大数据计算时最经常遇到的问题之一。当我们在执行 Hivez 语句或者运行MapReducejob时候,如果遇到一直卡在map100%,reduce99%一般就 是遇到了数据倾斜。在进行分布式计算的时候,某些节点的计算能力比较强或者需要计算的数据比较少,所有很快执行完成,某些节点计算的能力较差或者由于此节点需要计算的数据比较多,导致其他节点的 re原创 2020-08-31 17:21:14 · 275 阅读 · 0 评论 -
入门级,Hadoop详情教程(二)(hive)
hive概念基于Hadoop得数据仓库解决方案hive的特点和优势1、将结构化的数据库文件映射为数据库表2、提供类sql得查询语言HQL(sql代替mapreduce)3、让更多的人更容易使用hadoop4、可以整合更多的计算框架mapreduce(基于磁盘中间结果存于磁盘)spark(基于内存,减少IO,DAG计算模减少SHUFFLE)tez(也有DAG和container重用,但是部署繁琐)链的概念安全,可追溯,不可篡改全网公开:无用户授权机制的区块链成为共有链信息共享:共有链原创 2020-08-30 21:07:05 · 442 阅读 · 0 评论 -
hive函数大全+详情
hive函数分类运算符运算符含义实例结果!非,类似notselect !trueFALSE!=不等于,类似<>select 1!=2TRUE%取余,返回a除以b的余数select 40%31&位与操作,返回a和b按位进行与操作的结果select 3&502*乘法select 2*36+加法select 2+46-减法select 2-5-3/除,返回a除以b的结果,原创 2020-08-29 18:34:09 · 1121 阅读 · 0 评论 -
hadoop学习之hive练习题+答案
所用数据:https://pan.baidu.com/s/1XJBCKCMG727XQ6KA1E5Pow提取码:dsdzhadoop学习之hive练习题+答案第一题第二题第三题第四题第一题建表create table visit(user_id STRING,shop STRING)row format delimitedfields terminated by ' ';load data local inpath '/root/kb08/hive/1/jd.txt' into tab原创 2020-08-25 22:14:48 · 848 阅读 · 0 评论 -
入门级,hadoop ha 安装
在搭建普通的hadoop集群的基础上在hadoop260目录下新建data文件夹,在data文件夹中新建journalnode pids tmp 三个文件夹[root@vwmaster hadoop]# cd /opt/bigdata/hadoop/hadoop260/[root@vwmaster hadoop]# mkdir data[root@vwmaster hadoop]# cd data/[root@vwmaster hadoop]# mkdir journalnode pids tmp原创 2020-08-24 20:05:31 · 125 阅读 · 0 评论 -
Hadoop集群下的ZooKeeper配置
ZooKeeper安装zookeeper环境“一键”启动zookeeper脚本zookeeper的主从机选取机制安装zookeeper环境zookeeper安装包:https://pan.baidu.com/s/1fpdBs8kbjPj5rlrwusv1iw提取码:h1wv需要准备号jdk环境:参考:https://blog.csdn.net/weixin_44147632/article/details/107796624解压:tar -zxf zookeeper-3.4.5-cdh5.14.2原创 2020-08-21 12:50:25 · 368 阅读 · 0 评论 -
入门级,Hadoop详情教程(一)
Hadoop入门一大数据简介HadoopHadoop框架(1)hdfs dfs命令HDFS分布式文件系统YARN资源管理系统关于主机和从机的相关问题读写数据MapReduce大数据简介(1)概念①无法在一定的时间内通过常规软件进行抓取,管理和处理的数据②解决海量数据的存储和计算问题(2)特性数量大Volume,增长快Velocity,种类多Variety,价密低Value(3)固有特性时效性,不可变性(4)分布式计算:①传统分布式:1)多数据节点-copy data->单计算节原创 2020-08-20 10:08:45 · 867 阅读 · 1 评论 -
入门级,Linux下的Hadoop集群的搭建
hadoop安装包:https://pan.baidu.com/s/1ma4AywSvK4sYHJZ_J40amQ提取码:k91hlinux虚拟机安装及配置参考:Hadoop集群搭建解压文件修改hadoop-env.sh配置文件配置hadoop fs系统文件hadoop replicas 备份hadoop mapreduce 计算框架hadoop yarn 管理调度修改hadoop slaves 主机名环境变量配置hadoop 格式化 HDFShadoop-native库启动 hadoop查看hadoo原创 2020-08-17 18:50:47 · 284 阅读 · 0 评论