数据开发
文章平均质量分 78
Hadoop,spark,hbase,hive等大数据专业知识
Keven He
一个热爱技术的大数据开发者
展开
-
大数据的下一代变革-数据湖之Iceberg
1. 什么是数据湖1.1 什么是数据湖数据湖是一个集中式的存储库,允许以任意模式存储多个来源,所有结构化和非结构化数据,可以按照原样存储数据,无需对数据进行结构化处理,并运行不同类型的分析,对数据进行加工,例如:大数据处理,实时分析,机器学习,以指导做出更好的决策。1.2 大数据为什么需要数据湖当前基于Hive的离线数据仓库已经非常成熟,在传统的离线数据仓库中对记录级别的数据进行更新是非常麻烦的,需要对待更新的数据所属的整个分区,甚至时整个表进行全面覆盖才行,由于离线数仓多级逐层加工的架构设计,数据原创 2022-05-10 21:45:31 · 5456 阅读 · 0 评论 -
Google三驾马车之Bigtable
谷歌在2003到2006年间发表了三篇论文,《MapReduce: Simplified Data Processing on Large Clusters》,《Bigtable: A Distributed Storage System for Structured Data》和《The Google File System》介绍了Google如何对大规模数据进行存储和分析。这三篇论文开启了工业界的大数据时代,被称为Google的三驾马车。本文介绍Bigtable的相关内容。背景介绍在21世纪初,互联原创 2022-05-09 20:39:10 · 1063 阅读 · 0 评论 -
基于Echarts的餐饮可视化平台
整体介绍项目名:基于Echarts的餐饮可视化平台项目以解决餐饮服务行业的目前发展问题为基点,以数据技术和传统餐饮行业的结合,使其能够更好的推动服务业的发展。项目展示动态大屏,这里只放了静态展示图技术架构前端:HTMLCSSJavaScriptEchartsaxiosswipper后端(java):SpringBootSpringDataJpa数据库:MySQL项目简介module1由红外线感应进店人数,当客户进入店内时,进店人数增加,应将当地的天原创 2021-06-07 16:37:30 · 1764 阅读 · 7 评论 -
一文解决SSH免密登录的问题
相信想解决这个问题的伙伴们,一定是十分勤快的人(手动狗头)在下面的场景下:不同节点分发文件,节点间分发文件每次都需要输入密码在hadoop 集群启过程中,需要使用批量脚本统一启动各个节点服务解决方案:既然我们搭建的是集群,就在主节点上创建.ssh目录,然后生成公钥文件id_rsa.pub和私钥文件id_rsamkdir .sshssh-keygen -t rsa拷贝公钥到其他节点ssh-copy-id slave1ssh-copy-id slave2ssh-copy-id sla原创 2021-04-28 08:59:30 · 220 阅读 · 0 评论 -
Pandas数据分析入门篇
Pandas数据处理基础介绍Pandas 是非常著名的开源数据处理库,我们可以通过它完成对数据集进行快速读取、转换、过滤、分析等一系列操作。除此之外,Pandas 拥有强大的缺失数据处理与数据透视功能,可谓是数据预处理中的必备利器。数据类型数据读取数据选择数据删减数据填充Pandas 是非常著名的开源数据处理库,其基于 NumPy 开发,该工具是 Scipy 生态中为了解决数据分析任务而设计。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的函数和方法。特转载 2021-03-31 23:10:57 · 219 阅读 · 0 评论 -
Pandas数据分析入门
Pandas数据处理基础介绍Pandas 是非常著名的开源数据处理库,我们可以通过它完成对数据集进行快速读取、转换、过滤、分析等一系列操作。除此之外,Pandas 拥有强大的缺失数据处理与数据透视功能,可谓是数据预处理中的必备利器。数据类型数据读取数据选择数据删减数据填充Pandas 是非常著名的开源数据处理库,其基于 NumPy 开发,该工具是 Scipy 生态中为了解决数据分析任务而设计。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的函数和方法。特转载 2021-03-31 23:04:37 · 359 阅读 · 0 评论 -
聊聊HDFS安全模式的问题
最近在做一些Hadoop项目的时候,会遇到HDFS安全模式的问题,相信写代码的小伙伴们也遇到过这种问题。在一些场景之下,比如集群启动后,可以查看目录,但是上传文件时报错,打开 Web 页面可看到 NameNode 正处于 SafeMode 状态,怎么处理?SafeMode 是 NameNode 的一种特殊状态(Active/Standby/SafeMode 安全模式),在这种状态下,文件系统只接受读数据请求(ls、cat),而不接受上传、删除、修改等变更请求。在 NameNode 主节点启动时,原创 2021-03-13 00:49:05 · 542 阅读 · 3 评论 -
安装部署Hive(远程模式部署)
前要和介绍:首先确保我们环境上的hadoop部署成功并启动,使用命令启动hadoop安装hive的远程模式:我们使用三台机器,分别为master,slave1,slave2。slave2存放元数据,slave1作为hive server作为thrift服务器,master作为client客户端进行操作。安装部署Hiveslave2上安装MYSQL ServerMysql安装Mysql安装配置创建工作路径,解压安装包操作流程:首先创建工作路径,并将hive解压。环境中master作为客原创 2021-01-29 14:42:25 · 2917 阅读 · 4 评论 -
从了解数仓开始
我们每天的生活,无处不在的数据,我们无时不刻的在与数据打交道,同时也产生数据,慢慢人们意识到了数据的价值,在我们的生活中,我们进行网购时,在找自己想要购买的物品时候,发现有各种类似商品推荐,这就是大数据的魔力,在这背后,企业所搜集的数据发挥着巨大的价值。那么数据的存储应该怎么解决呢,可能对于数据库大家并不陌生,但是今天我们开始了解的是数据仓库,它与数据库有着异同,接下来我们来看看数据仓库到底是什么吧。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合-来自百度的解释,将..原创 2020-12-26 22:45:28 · 602 阅读 · 1 评论 -
stop-hbase.sh关闭不了,一直处于等待状态。
今天关闭HBase时,输入stop-hbase.sh命令一直处于等待状态。stopping hbase…解决办法是:先输入hbase-daemon.sh stop master命令再输入stop-hbase.sh命令。这样hbase就可以成功关闭。原创 2020-06-22 20:44:39 · 11255 阅读 · 3 评论 -
大数据技术Flume(一)
Flume 定义Flume 是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。Flume 基础架构Flume的组成架构:Flume基础组件:AgentAgent 是一个 JVM 进程,它以事件的形式将数据从源头送至目的。Agent 主要有 3 个部分组成,Source、Channel、Sink。SourceSource 是负责接收数据到 Flume Agent 的组件。Source 组件可以处理各种类型、各种格式的日志数据原创 2021-01-17 17:39:38 · 629 阅读 · 0 评论 -
Sqoop1.4.7 java.lang.ClassNotFoundException: org.apache.commons.lang.StringUtils解决方案
使用sqoop 为RDBMS数据导入到HDFS上命令运行出错错误: 读取/root/software/sqoop/lib/commons-lang3-3.4.jar时出错; error in opening zip file错误: 读取/root/software/sqoop/lib/commons-lang3-3.4.jar时出错; cannot read zip file注: /tmp/sqoop-root/compile/7d875e9aa66374bc31bec957613f0545/sta原创 2021-01-03 15:33:34 · 3140 阅读 · 6 评论 -
Linux下数据采集工具Flume的安装
Flume安装需要依赖于jdk,首先使用java-version来检查本机是否将jdk安装到位安装步骤1 下载并解压下载需要的flume版本的压缩包,下载地址为:http://archive.cloudera.com/cdh5/cdh/5/# 下载后进行解压tar -zxvf flume-ng-1.6.0-cdh5.15.2.tar.gz2 配置环境变量# vim /etc/profile配置环境变量:export FLUME_HOME=/usr/app/apache-flume.原创 2020-12-08 22:57:54 · 856 阅读 · 0 评论 -
玩转ECharts制作图表之雷达图
适用场景:雷达图适用于多维数据(四维以上),且每个维度必须可以排序(国籍就不可以排序)。但是,它有一个局限,就是数据点最多6个,否则无法辨别,因此适用场合有限。实现步骤:ECharts基本代码结构定义各个维度的最大值,通过radar属性配置准备数据,设置给series下的data将type的值设置为radar<body> <div style="width: 600px;height:400px"></div> <sc原创 2020-11-17 16:42:39 · 2476 阅读 · 0 评论 -
HadoopYARN学习记录(YARN 的安装部署和管理)
实验环境:linux操作系统,Hadoop环境1.YARN的安装Hadoop2.0以后自带yarn,所以使用yarn进行一个词频统计的demo2.启动hadoop输入以下命令,回车,进入/apps/hadoop/sbin目录cd /apps/hadoop/sbin回车后显示如下root:/apps/hadoop/sbin$在当前目录下输入以下命令,回车,启动hadoop./start-all.sh启动正常显示如下WARNING: Attempting to start al.原创 2020-10-30 22:56:41 · 663 阅读 · 0 评论 -
HadoopHDFS学习记录(HDFS的管理和使用)
环境准备:linux机器上 Hadoop单点部署完成,Java运行环境搭建完成1. 启动Hadoop的hdfs相关进程cd /apps/hadoop/sbin/./start-dfs.sh2.使用jps查看HDFS是否启动jps显示如下信息:705 SecondaryNameNode853 Jps519 DataNode409 NameNode看到这些信息后说明我们的相关进程已经启动成功验证HDFS的运行状态首先在HDFS上创建一个文件,验证是否成功hadoop f.原创 2020-10-30 22:30:18 · 440 阅读 · 0 评论 -
linux输入命令jps出现“process information unavailable解决方法
今天在使用搭建的hadoop集群的时候,出现了2724 – process information unavailable的情况。下面是出错原因和解决方案:(我是第二种情况,删除掉对应的文件再次jps查看该进程不存在)2724这个PID存在,但该PID是其他用户启动,当前用户没有查看权限。是2724这个PID不存在,此时需要到/tmp/hsperfdata_xxx前缀的目录,并找出PID对应的文件删除。...原创 2020-09-18 20:35:55 · 623 阅读 · 0 评论 -
Datawhale~Hands-on data analysis(数据模型搭建及评估)
数据模型搭建及评估模型建立数据建模是一种用于定义和分析数据的要求和其需要的相应支持的信息系统的过程数据建模分为三个阶段概念建模阶段逻辑建模阶段物理建模阶段常用机器学习中的sklearn库完成模型搭建sklearn的算法选择路径sklearn的学习参考:sklearn中文文档数据模型的建立三要素:数据结构:储存在数据库中对象类型的集合,作用是描述数据库组成对象以及对象之间的联系。数据操作:指对数据库中各种对象实例允许执行的操作的集合,包括操作及其相关的操作规则。原创 2020-08-28 00:22:49 · 216 阅读 · 0 评论 -
Datawhale~Hands-on data analysis(数据可视化)
数据可视化matplotlibmatplotlib是python的绘图库numpy.histogram()numpy.histogram() 函数是数据的频率分布的图形表示。 水平尺寸相等的矩形对应于类间隔,称为 bin,变量 height 对应于频率。numpy.histogram()函数将输入数组和 bin 作为两个参数。 bin 数组中的连续元素用作每个 bin 的边界。import numpy as np a = np.array([22,87,5,43,56,73,55,54原创 2020-08-26 11:21:42 · 153 阅读 · 0 评论 -
Datawhale~Hands-on data analysis(数据重构)
数据重构数据从一种几何形态到另一种几何形态,数据从一种格式到另一种格式的转换,包括结构转换、格式转换、类型替换等(数据拼接、数据裁剪、数据压缩等),以实现空间数据在结构、格式、类型上的统一,多源和异构数据的联接与融合。数据合并task01 将data文件夹所有数据载入,与之前的原始数据相比,观察他们的之间的关系text_left_up = pd.read_csv("data/train-left-up.csv")text_left_down = pd.read_csv("data/trai原创 2020-08-23 19:25:00 · 188 阅读 · 0 评论 -
Datawhale~Hands-on data analysis(数据清洗及特征处理)
Data Analysis数据清洗及特征处理导入numpy,pandas包和数据# 加载所需要的库import numpy as npimport pandas as pd# 加载数据df = pd.read_csv('train.csv')df.head(3)数据清洗概述我们拿到的数据通常是不干净的,所谓的不干净,就是数据中有缺失值,有一些异常点等,需要经过一定的处理才能继续做后面的分析或建模,所以拿到数据的第一步是进行数据清洗,将学习缺失值、重复值、字符串和数据转换等操作,将原创 2020-08-20 16:17:16 · 222 阅读 · 0 评论 -
Datawhale~Hands-on data analysis(数据基本操作)
前言: 第一次接触数据分析这方面的知识,但是自己又耐不住闲,于是跟着datawhale学下数据分析,如果有任何错误还请大家不吝赐教。Data Analysis载入数据学习过程中将会使用kaggle上面泰坦尼克号的任务,数据集:https://www.kaggle.com/c/titanic/overview1.导入numpy和pandas。import numpy as npimport pandas as pd载入数据使用相对路径载入数据df = pd.read_csv('.原创 2020-08-17 10:26:55 · 245 阅读 · 0 评论 -
Windows家庭版安装docker遇到boot2docker.iso下载过慢问题解决
?docker客户端在进行下载boot2docker.iso文件下载过慢安装教程可参照:win10家庭版安装Docker在进入到docker客户端发现客户端在github上进行下载boot2docker.isoRunning pre-create checks...(default) No default Boot2Docker ISO found locally, downloading the latest release...(default) Latest release for git原创 2020-08-06 20:53:53 · 796 阅读 · 0 评论 -
在虚拟机上安装hadoop环境
此前已将jdk,zookeeper在虚拟机配置成功,环境仍然为三台虚拟机(master,slave1,slave2)安装hadoop:1)解压安装包(master)创建相关工作路径,解压hadoop到相应目录。mkdir -p /usr/hadoopcd /usr/hadooptar -zxvf hadoop-2.7.3.tar.gz -C /usr/hadoop/2)添加hadoop环境变量(三台机器执行)vim /etc/profile添加内容:export HADOOP_HOM原创 2020-07-19 22:54:54 · 3146 阅读 · 0 评论 -
分布式zookeeper集群的安装centos7
1:创建zookeeper的工作路径:(master中执行,远程分发到其他节点)mkdir -p /usr/zookeeper2:解压准备好的zookeeper安装包,tar -zxvf /usr/zookeeper/zookeeper-3.4.10.tar.gz -C /usr/zookeeper删除软件安装包:rm -rf /usr/zookeeper/zookeeper-3.4.10.tar.gz3:在zookeeper的目录中新建zkdata和zkdatalog两个文件夹,(mas原创 2020-07-18 23:55:01 · 125 阅读 · 0 评论