大数据
文章平均质量分 57
万里长江横渡
邮箱xiong6060@163.com
展开
-
大数据电商项目常见八大类指标
电商中常见的统计指标原创 2023-03-18 20:07:52 · 348 阅读 · 0 评论 -
漏斗分析法
数据分析---漏斗分析法原创 2023-02-23 17:00:25 · 1247 阅读 · 0 评论 -
指标体系的应用与搭建
数仓指标体系的应用与搭建原创 2023-02-17 14:06:13 · 499 阅读 · 0 评论 -
Scala函数至简原则
scala函数至简原则原创 2022-11-28 23:49:04 · 563 阅读 · 0 评论 -
数据同步工具DataX、Sqoop、Maxwell、Canal
数据同步工具DataX、Sqoop、Maxwell、Canal原创 2022-11-11 20:19:26 · 8213 阅读 · 1 评论 -
Spark在Yarn上的两种模式YarnClient和YarnCluster
Spark在Yarn上的两种模式YarnClient和YarnCluster原创 2022-10-18 14:10:10 · 1019 阅读 · 0 评论 -
HBase读写流程
Hbase读写流程原创 2022-10-06 22:34:10 · 185 阅读 · 0 评论 -
HBase基本概念
HBase基本概念原创 2022-10-06 18:14:46 · 410 阅读 · 0 评论 -
大数据项目中数据倾斜
大数据项目中数据倾斜原创 2022-08-31 16:35:48 · 846 阅读 · 1 评论 -
数仓项目拉链表
离线数仓项目中拉链表原创 2022-08-30 23:39:12 · 1184 阅读 · 0 评论 -
电商数仓项目中各层的表
电商离线数仓项目中每一层常见的表原创 2022-08-30 23:21:59 · 1038 阅读 · 0 评论 -
Hadoop 优化
Hadoop 优化原创 2022-07-28 13:36:42 · 1320 阅读 · 1 评论 -
MapReduce各阶段步骤
MapReduce各阶段步骤原创 2022-07-28 13:18:27 · 2314 阅读 · 0 评论 -
HDFS小文件处理
HDFS小文件处理方式原创 2022-07-26 14:11:07 · 1075 阅读 · 0 评论 -
Spark框架
Spark 框架模块包含:Spark Core、 Spark SQL、 Spark Streaming、 Spark GraphX、 Spark MLlib,而后四项的能力都是建立在核心引擎之上。【Spark Core】:Spark的核心,Spark核心功能均由Spark Core模块提供,是Spark运行的基础。Spark Core以RDD为数据抽象,提供Python、Java、Scala、R语言的API,可以编程进行海量离线数据批处理计算。【SparkSQL】:基于SparkCore之上,提供结构原创 2022-07-12 20:51:19 · 3139 阅读 · 0 评论 -
Spark 和Hadoop(MapReduce)对比
【总结】尽管Spark相对于Hadoop而言具有较大优势,但Spark并不能完全替代Hadoop1、在计算层面,Spark相比较MR(MapReduce)有巨大的性能优势,但至今仍有许多计算工具基于MR构架,比如非常成熟的Hive,hive的底层默认是MapReduce,但是可以经过与spark重新编译后,底层计算框架换成spark。2、Spark仅做计算,而Hadoop生态圈不仅有计算(MR)也有存储(HDFS)和资源管理调度(YARN),HDFS和YARN仍是许多大数据体系的核心架构。...原创 2022-07-12 19:29:45 · 2761 阅读 · 0 评论 -
数据结构与算法框架
数据结构与算法框架原创 2022-07-07 11:09:25 · 347 阅读 · 0 评论 -
离线数仓和实时数仓架构对比
数仓的实时需求与离线需求的比较原创 2022-06-28 19:02:03 · 1865 阅读 · 1 评论 -
多线程相关问题
多线程相关问题原创 2022-06-27 22:08:11 · 272 阅读 · 0 评论 -
分布式唯一ID几种生成方案
分布式环境下唯一ID生成的集中方案原创 2022-06-27 14:09:18 · 2125 阅读 · 0 评论 -
HiveSQL和SparkSQL的区别和联系
Hive和spark对比原创 2022-06-25 13:23:49 · 12022 阅读 · 0 评论 -
为什么要对数据仓库建模
如果把数据看作图书馆里的书,我们希望看到它们在书架上分门别类地放置;如果把数据看作城市的建筑,我们希望城市规划布局合理;如果把数据看作电脑文件和文件夹,我们希望按照自己的习惯有很好的文件夹组织方式,而不是糟糕混乱的桌面,经常为找一个文件而不知所措。数据模型就是数据组织和存储方法,它强调从业务、数据存取和使用角度合理存储数据。Linux的创始人Torvalds有一段关于“什么才是优秀程序员”的话:“烂程序员关心的是代码,好程序员关心的是数据结构和它们之间的关系”,最能够说明数据模型的重要性。只有数据模型将数据原创 2022-06-18 18:22:18 · 958 阅读 · 0 评论 -
大数据对人思维的影响
大数据读人思维的影响原创 2022-06-09 19:22:52 · 1268 阅读 · 0 评论 -
Python环境管理之Miniconda
1、CentOS7默认的python环境是Python 2.7.5,在安装其他软件之前,需要了解改软件需要的python版本信息,如果与默认的python版本不同,则需要先进行Python版本管理。conda是一个开源的包、环境管理器,可以用于在同一个机器上安装不同Python版本的软件包及其依赖,并能够在不同的Python环境之间切换,Miniconda包括Conda、Python。此处,我们不需要如此多的工具包,故选择MiniConda。2、下载Miniconda(Python3版本)下载地址:h原创 2022-05-25 20:54:26 · 818 阅读 · 0 评论 -
Hive和Spark
1. Hive简介hive的定位是数据仓库,其提供了通过 sql 读写和管理分布式存储中的大规模的数据,即 hive即负责数据的存储和管理(其实依赖的是底层的hdfs文件系统或s3等对象存储系统),也负责通过 sql来处理和分析数据。所以说,hive只用来处理结构化数据,且只提供了sql的方式来进行分析处理。而且一般来说,hive只能对数据进行批处理。(当使用hive 的hbase映射表时,有一定的实时能力;同时,flink社区也在尝试将hive实时化-这里的实时化指小时级别的实时化,达不到分钟级别)。原创 2022-05-17 16:53:21 · 10830 阅读 · 0 评论 -
Hadoop关闭安全模式
hadoop3.X安装配置好之后,使用hadoop fs命令创建文件夹报错[xiong@hadoop102 /]$ hadoop fs -mkdir /inputmkdir: Cannot create directory /input. Name node is in safe mode.系统提示nome node处于安全模式关闭安全模式的方法退出安全模式hdfs dfsadmin -safemode leave 强制退出安全模式hdfs dfsadmin -safemode fo原创 2022-05-06 18:13:04 · 4921 阅读 · 1 评论 -
给Linux系统新增加一块硬盘
给Linux系统新增加一块硬盘给Linux系统新增加一块硬盘https://www.cnblogs.com/yujianadu/p/10750698.html转载 2022-05-06 17:47:37 · 121 阅读 · 0 评论 -
>/dev/null 2>&1 &
在自定义的脚本文件中,执行jar包后经常用>/dev/null 2>&1 &结尾/dev/null:表示linux系统黑洞标准输入0:从键盘获得输入 /proc/self/fd/0标准输出1:输出到屏幕(控制台) /proc/self/fd/1错误输出2: 输出到屏幕(控制台) /proc/self/fd/2、正常写法为1>/dev/null2>/dev/null表示1输出到linux系统黑洞,2输出到linux系统黑洞简写为 >/dev原创 2022-05-06 16:34:00 · 178 阅读 · 0 评论 -
zookeeper启动失败
报错[xiong@hadoop104 zookeeper-3.5.7]$ bin/zkServer.sh startZooKeeper JMX enabled by defaultUsing config: /opt/module/zookeeper-3.5.7/bin/../conf/zoo.cfgStarting zookeeper ... FAILED TO START具体原因可能是以下5个方面1、检查zoo.cfg是否配置错误2、检查myid是否配置错误3、检查路由是否互通4、检原创 2022-05-04 21:25:31 · 6050 阅读 · 1 评论 -
hadoop集群相关组件的对应版本关系
2.spark对应的Hadoop编译后的版本下载https://archive.apache.org/dist/spark/spark-2.1.1/本机的hadoop版本为2.7.2,选用的spark版本为2.1.1原创 2022-05-03 23:51:34 · 1990 阅读 · 0 评论 -
CentOS7中创建用户并赋予root权限
1、创建用户和创建用户组参见如下链接创建用户、创建用户组[root@hadoop103 /]# adduser xiong2、为已经创建号的xiong用户创建密码[root@hadoop103 /]# passwd xiong更改用户 xiong 的密码 。新的 密码:无效的密码: 密码少于 8 个字符重新输入新的 密码:passwd:所有的身份验证令牌已经成功更新。3、用户xiong授权sudo命令echo ‘xiong ALL=(ALL) ALL’ >> /etc/原创 2022-05-03 12:21:49 · 4541 阅读 · 0 评论 -
xsync服务器之间的同步脚本
1、前提多台服务器之间配置了ssh免密登录2、在/usr/local/bin目录下创建xsync文件 touch xsync#!/bin/bash#1 获取输入参数个数,如果没有参数,直接退出pcount=$#if((pcount==0)); thenecho no args;exit;fi#2 获取文件名称p1=$1fname=`basename $p1`echo fname=$fname#3 获取上级目录到绝对路径pdir=`cd -P $(dirname $p1);原创 2022-05-02 23:02:19 · 207 阅读 · 0 评论 -
ssh无密登录
多台服务器之间配置免密登录1、在所有服务器上/etc/hosts文件中配置ip地址和主机名的映射关系127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4::1 localhost localhost.localdomain localhost6 localhost6.localdomain6192.168.10.102 hadoop102192.168.10.103 hado原创 2022-05-02 22:49:33 · 816 阅读 · 0 评论 -
centOS中改变文件所属的用户和组
修改文件所属的组chown :组名 文件名chown 用户名 文件名[root@hadoop102 opt]# ll总用量 0drwxr-xr-x. 2 root root 6 5月 2 21:26 moduledrwxr-xr-x. 2 root root 6 3月 26 2015 rhdrwxr-xr-x. 2 root root 6 5月 2 21:25 software[root@hadoop102 opt]# chown :user module[root@原创 2022-05-02 21:32:27 · 3243 阅读 · 0 评论 -
CentOS7创建组删除组创建用户删除用户
1、创建用户组:groupadd 用户组名创建admin用户组[root@localhost ~]# groupadd admin2、删除用户组:groupdel 用户组名 (永久的删除)删除admin用户组[root@localhost ~]# groupdel admin3、创建用户:useradd 用户名创建test1用户[root@localhost ~]# useradd test1设置用户密码:passwd 用户名[root@localhost ~]# pas原创 2022-05-02 21:22:57 · 9749 阅读 · 0 评论 -
CentOS7中查看和自定义data数据存放位置
Yum方式安装的MySQL数据库默认的数据库文件位于/var/lib/mysql下,有时候需要更改MySQL数据库的数据存储目录。1、查看mysql是否正在运行。(更换目录需要先关闭mysql服务)systemctl status mysqld[xiong@hadoop102 /]$ systemctl status mysqld● mysqld.service - MySQL Server Loaded: loaded (/usr/lib/systemd/system/mysqld.serv原创 2022-04-16 13:23:29 · 2982 阅读 · 0 评论 -
hive使用tez执行引擎insert报错
hive中配置号tez可以正常建表,但是insert报错【错误提示】FAILED: Execution Error, return code -101 from org.apache.hadoop.hive.ql.exec.tez.TezTask.com.sun.jersey.json.impl.provider.entity.JSONRootElementProvider and com.sun.jersey.json.impl.provider.entity.JSONRootElementProv原创 2022-04-08 21:39:23 · 3321 阅读 · 0 评论 -
Tez 配置
1.安装包准备(1)下载 Tez 的依赖包。 下载地址http://archive.apache.org/dist/tez/这里选择0.9.1的版本apache-tez-0.9.1-bin.tar.gz(2)复制 apache-tez-0.9.1-bin.tar.gz 到 hadoop102 节点的/opt/software 目录下。[xiong@hadoop102 software]$ ll总用量 125992-rw-r--r--. 1 root root 67938106 3月 24 1原创 2022-04-08 19:00:46 · 1992 阅读 · 0 评论