bigdata
文章平均质量分 78
大数据相关
Wang·Br
这个作者很懒,什么都没留下…
展开
-
hive实现树形结构展开
结果样式-- sql原qSELECT SYS_CONNECT_BY_PATH(T.C_AREANAME, '-->') AS RESULT, T.C_AREACODE, T.C_AREANAME, T.C_PARENTCODE, LEVELFROM CRM_TAREAINFOTREE TSTART WITH T.C_AREACODE = '0001'CONNECT BY PRIOR T.C_AREACODE = T.C_PARENTCODEORDE原创 2021-09-03 09:47:18 · 3406 阅读 · 0 评论 -
HQL操作语句
(返回hive笔记)[https://blog.csdn.net/weixin_44847293/article/details/109897984]HQL-DDL命令参考:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDLDDL(data definition language): 主要的命令有CREATE、ALTER、DROP等。DDL主要是用在定义、修改数据库对象的结构 或 数据类型。第 1 节 数据库操作原创 2021-09-01 10:22:23 · 1595 阅读 · 0 评论 -
HIVE函数
函数Hive内置函数官网:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-Built-inFunctions第 1 节 系统内置函数查看系统函数-- 查看系统自带函数 show functions; -- 显示自带函数的用法 desc function upper; desc function extended upper; 日期函数【重要】-- 当前前日期原创 2021-08-09 17:39:31 · 287 阅读 · 0 评论 -
hive元数据管理与存储
第 1 节 Metastore在Hive的具体使用中,首先面临的问题便是如何定义表结构信息,跟结构化的数据映射成功。所谓的映射指的是一种对应关系。在Hive中需要描述清楚表跟文件之间的映射关系、列和字段之间的关系等等信息。这些描述映射关系的数据的称之为Hive的元数据。该数据十分重要,因为只有通过查询它才可以确定用户编写sql和最终操作文件之间的关系。Metadata即元数据。元数据包含用Hive创建的database、table、表的字段等元信息。元数据存储在关系型数据库中。如hive内置的Derby原创 2021-06-29 18:44:15 · 531 阅读 · 0 评论 -
Hive 数据类型与文件格式
第三部分 数据类型与文件格式Hive支持关系型数据库的绝大多数基本数据类型,同时也支持4种集合数据类型。第 1 节 基本数据类型及转换Hive类似和java语言中一样,会支持多种不同长度的整型和浮点类型数据,同时也支持布尔类型、字符串类型,时间戳数据类型以及二进制数组数据类型等。详细信息见下表:大类类型Integers(整型)TINYINT – 1字节的有符号整数SAMLINT – 2字节的有符号整数INT – 4字节的有符号整数BIGINT – 8字节的有符号整数原创 2021-06-23 11:10:38 · 187 阅读 · 0 评论 -
Hive安装与配置
第 1 节 Hive安装配置介绍Hive官网:http://hive.apache.org下载网址:http://archive.apache.org/dist/hive/文档网址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual安装前提:3台虚拟机,安装了Hadoop安装软件:Hive(2.3.7) + MySQL (5.7.26)备注:Hive的元数据默认存储在自带的 derby 数据库中,生产中多采用MySQL原创 2021-06-21 10:58:34 · 934 阅读 · 0 评论 -
hive优化
一 架构优化1.1 执行引擎hive执行引擎: MapReduce、Tez、Spark、Flink在hive-site.xml中hive.execution.engine属性控制1.2 优化器与关系型数据库类似,Hive会在真正执行计算之前,生成和优化逻辑执行计划与物理执行计划Hive有两种优化器:Vectorize(向量化优化器)Cost-Based Optimization (CBO 成本优化器)1.2.1 矢量化查询执行矢量化查询(要求执行引擎为Tez)执行通过一次批量执原创 2021-05-17 16:09:02 · 284 阅读 · 0 评论 -
VMware搭建centOS7环境
需要软件CentOS-7-x86_64-DVD-1810.iso1 VMware虚拟机环境创建1.1 创建虚拟机然后点击’开启此虚拟机’选择install centos 7 回车即可选择英文选择date&Time选择亚洲上海,后点击Done选择INSTALLATION DESTINATION 设置目录结构选择I will configure partitioning自定义分区选择+ 添加分区 后选择 Add mount point添加 .原创 2021-05-13 15:25:21 · 398 阅读 · 0 评论 -
CDH数仓-ClouderaManager搭建
第1章数仓之ClouderaManager1.1 CM简介1.1.1 CM简介Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具,使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。1.2 服务器准备1.2.1 SSH免密登录配置hadoop102对hadoop102、hadoop103、hadoop104三台服务器免密登录。CDH服务开启与关闭是通过server和agent来完成的,所以这里不需要配原创 2021-04-24 22:34:20 · 540 阅读 · 0 评论 -
excel导入erwin数据模块
学习中… …模板路径D:\software\ERwin Data Modeler r7.3\MetaIntegration\conf\MIRModelBridgeTemplate\MIRMicrosoftExcel\Standard-Blank.xlsx模板对应内容1 Model / Catalog1.1 Name解释:model名字查看:1.2 Type解释:…的类型查看:model根目录右键 -> properties -> udp2 Package未.原创 2021-04-22 00:55:41 · 758 阅读 · 0 评论 -
scala 作业
第一题、百元喝酒作业要求:每瓶啤酒2元,3个空酒瓶或者5个瓶盖可换1瓶啤酒。100元最多可喝多少瓶啤酒?(不允许借啤酒)思路:利用递归算法,一次性买完,然后递归算出瓶盖和空瓶能换的啤酒数package com.wangbr.homework/** * @author: wangbr * @date: 2021-01-29 21:40 * 作业要求:每瓶啤酒2元,3个空酒瓶或者5个瓶盖可换1瓶啤酒。100元最多可喝多少瓶啤酒? * (不允许借啤酒)思路:利用递归算法,一次性买完,然后递归原创 2021-01-29 23:10:08 · 1347 阅读 · 1 评论 -
数仓练习-下
题一用拉链表实现核心交易分析中DIM层商家维表,并实现该拉链表的回滚(自己构造数据,编写SQL,并要有相应的文字说明)-- 创建表-- 创建商家信息维表drop table if exists dim.dim_trade_shops;create table dim.dim_trade_shops( `shopid` int COMMENT '商铺ID', `userid` int COMMENT '商铺负责人', `areaid` int COMMENT '区域ID', `原创 2021-01-10 13:17:40 · 248 阅读 · 0 评论 -
数仓练习(上)
在会员分析中计算最近七天连续三天活跃会员数-- 添加gidselect device_id, dt, date_sub(dt, row_number() over(partition by device_id order by dt)) gid from dws.dws_member_start_day where dt between date_sub(current_date, -7) and current_date;-- 求出大于等于3天的记录select de原创 2021-01-04 22:25:37 · 479 阅读 · 1 评论 -
使用Kafka做日志收集
使用Kafka做日志收集需求需要收集的信息:1、用户ID(user_id)2、时间(act_time)3、操作(action,可以是:点击:click,收藏:job_collect,投简历:cv_send,上传简历:cv_upload)4、对方企业编码(job_code)1、HTML可以理解为拉勾的职位浏览页面2、Nginx用于收集用户的点击数据流,记录日志access.log3、将Nginx收集的日志数据发送到Kafka主题:tp_individual架构:HTML+Nginx+ng原创 2021-01-01 03:29:33 · 1399 阅读 · 0 评论 -
RedisCluster的安装、部署、扩容和 Java客户端调用
Redis下载官网地址:http://redis.io/中文官网地址:http://www.redis.cn/下载地址:http://download.redis.io/releases/安装# (三台)安装 C 语言需要的 GCC 环境yum install -y gcc-c++ yum install -y wget# 下载并解压缩 Redis 源码压缩包wget http://download.redis.io/releases/redis-5.0.5.tar.gz原创 2020-12-22 13:19:00 · 265 阅读 · 0 评论 -
spark-zk 服务起不来
情况1场景[root@linux01 logs]# start-all.sh starting org.apache.spark.deploy.master.Master, logging to /opt/servers/spark-2.4.5/logs/spark-root-org.apache.spark.deploy.master.Master-1-linux01.outfailed to launch: nice -n 0 /opt/servers/spark-2.4.5/bin/spar原创 2021-04-02 18:26:43 · 228 阅读 · 0 评论 -
azkaban统计每日活跃用户
环境现有用户点击行为数据文件,每天产生会上传到hdfs目录,按天区分目录,现在我们需要每天凌晨两点定时导入Hive表指定分区中,并统计出今日活跃用户数插入指标表中。clickloguserId click_time index uid1 2020-06-21 12:10:10 a.html uid2 2020-06-21 12:15:10 b.html uid1 2020-06-21 13:10:10 c.html uid1 2020-06-21 15:10:10 d.html uid原创 2020-12-16 17:09:35 · 291 阅读 · 0 评论 -
azkaban踩坑
错误一Exception in thread "main" java.lang.NoClassDefFoundError: Could not initialize class org.apache.derby.jdbc.AutoloadedDriver40 at java.lang.Class.forName0(Native Method) at java.lang.Class.forName(Class.java:348) at java.sql.DriverManager.isDriverAl原创 2020-12-15 23:25:50 · 317 阅读 · 0 评论 -
hbase练习-好友关系表
开发环境在社交网站,社交APP上会存储有大量的用户数据以及用户之间的关系数据,比如A用户的好友列表会展示出他所有的好友,现有一张Hbase表,存储就是当前注册用户的好友关系数据1.rowkey:为用户uid2.列族friends:列名为好友的uid,列值同样为uid需求使用Hbase相关API创建一张结构如上的表删除好友操作实现(好友关系双向,一方删除好友,另一方也会被迫删除好友)例如:uid1用户执行删除uid2这个好友,则uid2的好友列表中也必须删除uid1添加数据-- 创建原创 2020-12-15 13:50:12 · 986 阅读 · 0 评论 -
impala练习——对用户的日志数据打上会话内序号
需求业务:会话概念:用户的一次会话含义是指用户进入系统开始到用户离开算作一次会话,离开或者重新开始一次会话的概念是指用户的两次行为事件差值大于30分钟例如:-- 第一次会话A,2020-05-15 01:30:00A,2020-05-15 01:35:00A,2020-05-15 02:00:00-- 第二次会话A,2020-05-15 03:00:10A,2020-05-15 03:05:00-- 结果:对用户的日志数据打上会话内序号A,2020-05-15 01:30:00,1原创 2020-12-06 21:15:41 · 612 阅读 · 0 评论 -
Impala的架构原理
第 1 节 Impala的组件Impala是⼀个分布式,⼤规模并⾏处理(MPP)数据库引擎,它包括多个进程。Impala与Hive类似不是数 据库⽽是数据分析⼯具;#在linux123执⾏ps -ef | grep impala#结果impala 29212 1 0 Jul02 ? 00:01:06/usr/lib/impala/sbin/statestored -log_dir=/var/log/impala -state_store_port=24000impala 29249 1 0 J原创 2020-11-30 16:10:30 · 180 阅读 · 0 评论 -
hive相关命令
hive相关命令1.hive -helphive -e: 不进入hive交互窗口,执行sql语句hive -e "select * users"hive -f: 执行脚本中sql语句# 创建文件hqlfile1.sql,内容:select * from users# 执行文件中的SQL语句hive -f hqlfile1.sql# 执行文件中的SQL语句,将结果写入文件hive -f hqlfile1.sql >> result1.log2.进入退出hive命原创 2020-10-31 16:32:33 · 1695 阅读 · 0 评论 -
hive的hql练习题
1、找出全部夺得3连贯的队伍数据:活塞,1990公牛,1991公牛,1992公牛,1993火箭,1994火箭,1995公牛,1996公牛,1997公牛,1998马刺,1999湖人,2000湖人,2001湖人,2002马刺,2003活塞,2004马刺,2005热火,2006马刺,2007凯尔特人,2008湖人,2009湖人,2010-- 创建表create table hwt1(team string,year int)row format delim原创 2020-11-14 16:36:42 · 1151 阅读 · 0 评论 -
Hive学习笔记
Hive概述Hive安装与配置数据类型与文件格式HQL操作之 – DDL命令HQL操作之–数据操作HQL操作之–DQL命令【重点】函数HQL操作之–DML命令元数据管理与存储Hive调优策略Hive案例个人总结hive命令...原创 2020-11-21 14:51:52 · 257 阅读 · 0 评论 -
BigData学习笔记
01- hadoop02-hive03-hue04-flume05-sqoop原创 2020-11-18 11:13:13 · 156 阅读 · 0 评论 -
Hadoop学习笔记
1、什么是Hadoop2、Apache Hadoop的重要组成3、Apache Hadoop 完全分布式集群搭建完全分布式集群搭建4、HDFS分布式文件系统5、MapReduce编程框架6、YARN资源调度7、Hadoop 3.x新特性概述原创 2020-11-21 10:45:10 · 133 阅读 · 0 评论 -
Hadoop完全分布式集群搭建
软件和操作系统版本Hadoop框架是采⽤Java语⾔编写,需要java环境(jvm)JDK版本:JDK8版本集群:知识点学习:统⼀使⽤vmware虚拟机虚拟三台linux节点,linux操作系统:Centos7项⽬阶段:统⼀使⽤云服务器,5台云服务器节点Hadoop搭建方式单机模式:单节点模式,⾮集群,⽣产不会使⽤这种⽅式单机伪分布式模式:单节点,多线程模拟集群的效果,⽣产不会使⽤这种⽅式完全分布式模式:多台节点,真正的分布式Hadoop集群的搭建(⽣产环境建议使⽤这种⽅式).原创 2020-11-21 10:44:09 · 391 阅读 · 0 评论 -
云主机中Linux准备
本篇为云主机配置网络静态IP配置– 暂时不需要配置vi /etc/sysconfig/network-scripts/ifcfg-eth0# ONBOOT改为yes开启⾃动启⽤⽹络连接# BOOTPROTO改为静态static# IPADDR改为你⾃⼰设置的ip (ip可以通过命令 ip addr来获得)# GATEWAY设置⽹关# 设置DNS1作为主DNS,也可以加个DNS2作为备⽤。# 常⻅的DNS1=8.8.8.8 DNS2=8.8.4.4配置hostname与IP映射## h原创 2020-11-19 16:09:29 · 145 阅读 · 0 评论 -
数据采集工具 -- Flume 学习笔记
Flume概述flume概述笔记Flume安装部署flume安装原创 2020-11-07 16:42:57 · 135 阅读 · 1 评论 -
flume安装部署
安装部署Flume官网地址:http://flume.apache.org/文档查看地址:http://flume.apache.org/FlumeUserGuide.html下载地址:http://archive.apache.org/dist/flume/ 选择的版本 1.9.0安装步骤:1、下载软件 apache-flume-1.9.0-bin.tar.gz,并上传到 linux123 上的 /opt/lagou/software 目录下2、解压 apache-flume-1.9.0-原创 2020-11-07 16:35:50 · 130 阅读 · 2 评论 -
Flume概述
typora-copy-images-to: flume_typora数据采集工具 – FlumeFlume概述1、概述(什么是、体系结构、拓扑结构、内部原理)2、安装配置3、应用(基础、高级)无论数据来自什么企业,或是多大量级,通过部署Flume,可以确保数据都安全、及时地到达大数据平台,用户可以将精力集中在如何洞悉数据上。Flume的定义Flume由Cloudera公司开发,是一个分布式、高可靠、高可用的海量日志采集、聚合、传输的系统。Flume支持在日志系统中定制各类数据发.原创 2020-11-07 11:14:45 · 1787 阅读 · 1 评论