![](https://img-blog.csdnimg.cn/2019093010165894.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
文章平均质量分 68
大数据 万物互联的时代 ~~
あずにゃん
日萌社
展开
-
java.lang.NoSuchMethodError: com.lmax.disruptor.dsl.Disruptor.<init>
大数据hive报错原创 2022-08-06 16:43:16 · 823 阅读 · 1 评论 -
org/apache/hbase/thirdparty/com/google/common/cache/CacheLoader
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)报错: Caused by: java.lang.NoClassDefFoundError: org/apache/hbase/thirdparty/com/google/common/cache/CacheLoader Caused by: java.lang.ClassNotFoundException: org.apache.hbase.t...原创 2020-08-25 22:52:07 · 3869 阅读 · 0 评论 -
kafka eagle 下载配置安装
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)链接:https://pan.baidu.com/s/1n5tiOf5fEr2wBMKQsGU3ag 提取码:ie1f 1.Kafka-Eagle官网:https://www.kafka-eagle.org/ 下载页面:http://download.kafka-eagle.org/ kafka-eagle-bin-2.0.0.tar.gz:ht.原创 2020-07-30 16:00:39 · 1006 阅读 · 2 评论 -
Sqoop下载安装、Sqoop导出Oracle数据到HDFS
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)由于sqoop需要通过MR才能把数据从一个数据库导出到另外一个数据库,所以需要启动hdfs和yarn 1.启动 hdfs 集群:(在主节点的机器上执行) cd /root/hadoop/sbin ./start-dfs.sh 2.启动yarn集群:(在主节点的机器上执行) cd /root/hadoop/sbin ./start-.原创 2020-07-29 16:43:39 · 710 阅读 · 0 评论 -
node_exporter、grafana 监控服务器系统资源
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)1.node_exporter下载: https://prometheus.io/download/2.修改prometheus配置文件 job_name: 'prometheus':prometheus配置 job_name: 'pushgateway':pushgateway配置 job_name: 'node1':node_export.原创 2021-06-26 20:49:31 · 279 阅读 · 1 评论 -
grafana 登录报错
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)登录 grafana http://10.3.4.195:3000 使用默认用户名密码(admin/admin)登录报错1: Unauthorized Invalid or expired reset password code path=/api/user/password/reset status=400 path=/api/user/pas.原创 2020-07-21 11:59:03 · 3416 阅读 · 0 评论 -
prometheus + pushgateway + grafana 监控 Flink on Yarn
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)Flink 配置3台机器:(注意每台机器最好都拷贝jar包和修改配置文件) 拷贝jar包:cp /data/flink-1.10.1/opt/flink-metrics-prometheus-1.10.1.jar /data/flink-1.10.1/lib 修改配置文件 vim /data/flink-1.10.1/conf/flink-conf...原创 2020-07-21 11:55:37 · 2078 阅读 · 4 评论 -
prometheus + pushgateway + grafana 监控 Flink
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)1.grafana下载 https://grafana.com/grafana/download https://dl.grafana.com/oss/release/grafana-7.1.0.linux-amd64.tar.gz2.安装 grafana tar zxvf grafana-7.1.0.linux-amd64.tar.gz .原创 2020-07-19 22:30:47 · 1094 阅读 · 0 评论 -
配置 prometheus、pushgateway 监控 Flink metrics指标
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)当prometheus的server与target不在同一网段网络不通,无法直接拉取target数据,需要使用pushgateway作为数据中转点。flink metric数据流转的流程是 flink metric -> pushgateway -> prometheus。pushgateway 和 prometheus 都装到同一台机器nod.原创 2020-07-19 20:35:34 · 4398 阅读 · 0 评论 -
Flink集群安装:Flink的scala程序打包和部署运行
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)flink下载 https://archive.apache.org/dist/flink/ flink-flink版本号-bin-scala_版本号.tgz:只能在flink集群执行 flink-flink版本号-bin-hadoop版本号-scala_版本号.tgz:可以打包flink的jar程序到yarn执行1.安装 flink tar zx.原创 2020-07-19 00:37:07 · 2219 阅读 · 0 评论 -
Flink报错:NoSuchMethodError: scala.Predef$.refArrayOps
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)flink安装包的scala版本和项目中pom依赖的各个jar包相关的scala版本不一致导致的报错:NoSuchMethodError: scala.Predef$.refArrayOps...原创 2020-07-19 00:33:12 · 527 阅读 · 0 评论 -
Flink报错:does not exist or the user running Flink (‘root‘) has insufficient permissions to access it
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)实际任务会被分发到 taskmanage 的机器中,计算结果根据会保存到 taskmanage 的机器下,不会在 jobmanage 的机器下。因此需要把所读取的本地文件发送到每台taskmanage机器和jobmanage机器中,否则会报错FileNotFoundException和IOException,比如 does not exist or the us原创 2020-07-19 00:31:44 · 3845 阅读 · 1 评论 -
原生 hadoop安装
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)1.hadoop 安装包下载:http://archive.apache.org/dist/hadoop/core/2.安装hadoop 1.tar zxvf hadoop-2.8.3.tar.gz -C /root/ mv hadoop-2.8.3 hadoop 2.hadoop-env.sh 1.cd /root/hadoop/etc/ha原创 2020-07-18 17:01:46 · 360 阅读 · 0 评论 -
CDH/CM:创建集群多节点,通过 VMware 安装 Centos 7 虚拟机 CentOS Linux release 7.6.1810
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)防火墙 查看状态 systemctl status firewalld防火墙 关闭 systemctl stop firewalld防火墙 开机禁用 systemctl disable firewalld禁用 SELINUX查.原创 2020-07-18 16:58:03 · 585 阅读 · 0 评论 -
maven scala项目打包
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) <build> <plugins> <!-- 该插件用于将Scala代码编译成class文件 --> <plugin> <groupId>net.alchim31.maven</groupId.原创 2020-07-18 16:42:46 · 545 阅读 · 0 评论 -
Spark性能优化
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)4.7 Spark性能优化学习目标目标 知道常用原则 知道Spark的工作原理以及参数优化 知道数据倾斜原理以及解决方案 应用 无 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前原创 2021-07-02 09:35:06 · 284 阅读 · 1 评论 -
实时日志分析
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)4.4 实时日志分析学习目标目标 掌握Flume与Kafka对接 日志数据我们已经收集到hadoop中,但是做实时分析的时候,我们需要将每个时刻用户产生的点击行为收集到KAFKA当中,等待spark streaming程序去消费。4.4.1 Flume收集日志到Kafka目的:收集本地实时日志行为数据,到kafka 步骤: 1、开启zooke原创 2021-07-04 12:07:03 · 334 阅读 · 0 评论 -
Kafka
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)4.2 Kafka学习目标目标 了解kafka概念 了解kafka的设计模式 掌握kafka的集群部署 说明Kafka的常用操作指令 了解Kafka的整体架构 知道Kafka的生产者、消费者的数据分发、负载均衡 说明Kafka的文件存储机制 说明Kafka为什么性能高 应用 应用kafka的python api完成生产消费原创 2020-06-18 12:10:17 · 364 阅读 · 0 评论 -
Flume
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)4.2 Flume学习目标目标 了解Flume结构 掌握Flume的安装 知道Flume的参数配置、插件以及作用 了解Flume的负载均衡 应用 应用Flume监听端口数据并输出到控制台 实现Flume采集文件/目录到HDFS 4.2.1 Flume概述Flume是由cloudera软件公司产出的可分布式日志收集系统,后.原创 2020-06-18 12:06:22 · 430 阅读 · 0 评论 -
Spark:Spark SQL、Spark Streaming
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)spark 入门课程目标:了解spark概念 知道spark的特点(与hadoop对比) 独立实现spark local模式的启动1.1 spark概述 1、什么是spark 基于内存的计算引擎,它的计算速度非常快。但是仅仅只涉及到数据的计算,并没有涉及到数据的存储。 2、为什么要学习spark MapReduce框架局限性.原创 2020-06-16 22:10:31 · 953 阅读 · 0 评论 -
HBase
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)5.1 HBase简介1 什么是HBaseHBase是一个分布式的、面向列的开源数据库 HBase是Google BigTable的开源实现 HBase不同于一般的关系数据库, 适合非结构化数据存储2 BigTableBigTable是Google设计的分布式数据存储系统,用来处理海量的数据的一种非关系型的数据库。 适合大规模海量数据,PB级.原创 2020-06-16 21:59:20 · 301 阅读 · 0 评论 -
Hive
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)4.1 Hive基本概念1 Hive简介学习目标- 了解什么是Hive- 了解为什么使用Hive什么是 HiveHive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能,底层数据是存储在 HDFS 上。 Hive 本质: 将.原创 2020-06-16 21:56:38 · 285 阅读 · 0 评论 -
Hadoop、分布式文件系统HDFS、YARN、MAPREDUCE
日萌社人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)1.1 什么是Hadoop Hadoop名字的由来 作者:Doug cutting Hadoop项目作者的孩子给一个棕黄色的大象样子的填充玩具的命名 Hadoop的概念: Apache™ Hadoop® 是一个开源的,可靠的(reliable),可扩展的(scalable)分布式计算框架 允许使用简单的编程模型跨计算机集群分布...原创 2020-06-16 21:54:41 · 1275 阅读 · 0 评论 -
Kudu 分页查询的两种方式
Impala 操作/读写 Kudu,使用druid连接池 Kudu 原理、API使用、代码 Kudu Java API 条件查询 spark读取kudu表导出数据为parquet文件(spark kudu parquet) kudu 导入/导出 数据 Kudu 分页查询的两种方式 Kudu 创建主键 1.第一种:可以直接使用“limit 行数” 表示直接从 s...原创 2019-07-22 17:00:51 · 4904 阅读 · 0 评论 -
spark提交命令 spark-submit 的参数 executor-memory、executor-cores、num-executors、spark.default.parallelism分析
Impala 操作/读写 Kudu,使用druid连接池 Kudu 原理、API使用、代码 Kudu Java API 条件查询 spark读取kudu表导出数据为parquet文件(spark kudu parquet) kudu 导入/导出 数据 Kudu 分页查询的两种方式 map、flatMap(流的扁平化)、split 的区别 Spark(SparkSql) 写数据到 ...原创 2019-07-19 15:39:28 · 6244 阅读 · 0 评论 -
Storm 原理、API
大数据组件使用 总文章1.Apache Storm 流式计算框架 1.Storm 基础 1.Storm是什么 Hadoop在处理数据的时候,时效性不够,市场期望能够尽快得到处理后的数据。 Storm是一个流式计算框架,数据源源不断的产生,源源不断的收集,源源不断的计算。(一条数据一条数据的处理) Storm只负责数据的计算,不负责数据的存储。 2013年...原创 2019-06-01 13:07:38 · 385 阅读 · 0 评论 -
C/C++ 笔记、Python 笔记、JavaWeb + 大数据 笔记
日萌社Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战用户画像C、C++笔记JavaWeb+大数据笔记CDH 6、CDH5Python笔记链接:https://pan.baidu.com/s/1QOh_EpLe97U43GMTjVaVtQ提取码:vtc5链接:https://pan.baidu.com/s/1TKNZ6...原创 2021-06-26 20:49:19 · 8403 阅读 · 1 评论 -
Azkaban(工作流调度器)
大数据组件使用 总文章Azkaban 调度器1.安装包: azkaban-executor-server-2.5.0.tar.gz azkaban 执行服器 azkaban-sql-script-2.5.0.tar.gz azkaban sql脚本 azkaban-web-server-2.5.0.tar.gz azkaban web 服务器2.解压 mkdir -p /r...原创 2019-05-12 13:42:53 · 982 阅读 · 0 评论 -
网站/APP 流量分析、点击流分析、用户访问分析
数据仓库设计 网站/APP 流量分析、用户访问分析 网站/APP 流量分析、点击流分析、用户访问分析 网站埋点+网站日志自定义采集系统+nginx的相关安装1.点击流数据模型 1.点击流概念 点击流(Click Stream)是指用户在网站上持续访问的轨迹。这个概念更注重用户浏览网站的整个流程。 用户对网站的每次访问包含了一系列的点击动作行为,这些点击行为数据就构成了...原创 2019-05-12 13:32:35 · 10824 阅读 · 0 评论 -
网站/APP 流量分析、用户访问分析
数据仓库设计 网站/APP 流量分析、用户访问分析 网站/APP 流量分析、点击流分析、用户访问分析 网站埋点+网站日志自定义采集系统+nginx的相关安装2.本项目中数据仓库的设计(注:采用星型模型) 1.事实表设计 2.维度表设计 注意: 维度表的数据一般要结合业务情况自己写脚本按照规则生成,也可以使用工具生成,方便后续的关联分析。 比如一般会事前...原创 2019-05-12 13:23:32 · 12711 阅读 · 0 评论 -
数据仓库设计
1.模块开发----数据仓库设计 1.维度建模基本概念 1.维度建模(dimensional modeling)是专门用于分析型数据库、数据仓库、数据集市建模的方法。数据集市可以理解为是一种"小型数据仓库"。 2.维度表(dimension) 维度表示你要对数据进行分析时所用的一个量,比如你要分析产品销售情况,你可以选择按类别来进行分析,或按区域来分析。 这样的按X...原创 2019-05-12 13:20:00 · 1138 阅读 · 0 评论 -
zookeeper 集群搭建、原理
大数据组件使用 总文章大部分分布式应用需要一个主控、协调器或者控制器来管理物理分布的子进程。目前,大多数都要开发私有的协调程序,缺乏一个通用机制,协调程序的反复编写浪费,且难以形成通用、伸缩性好的协调器,zookeeper提供通用的分布式锁服务,用以协调分布式应用。所以说zookeeper是分布式应用的协作服务。zookeeper作为注册中心,服务器和客户端都要访问,如果有大量的并发...原创 2019-05-08 21:36:42 · 345 阅读 · 0 评论 -
mapreduce Top N
代码下载链接:https://pan.baidu.com/s/1VhxRXB63vz_4QZyKVFqoZQ提取码:2v0l原创 2019-04-30 16:22:12 · 436 阅读 · 0 评论 -
mapreduce 数据去重
代码下载链接:https://pan.baidu.com/s/1VhxRXB63vz_4QZyKVFqoZQ提取码:2v0l1.经过了maptask:把一行数据作为key,value为空2.每个各自的mapreduce中的相同顺序的分区中的数据都传到同一个reducetask中进行全局合并:key=一行数据。value=为空的迭代器...原创 2019-04-30 16:05:36 · 424 阅读 · 0 评论 -
mapreduce 倒排索引
代码下载链接:https://pan.baidu.com/s/1VhxRXB63vz_4QZyKVFqoZQ提取码:2v0l1.读取的文件中第一行数据:key=偏移量0。value=第一行内容2.经过了maptask:key=单词:文件名。value=次数13.经过了局部合并combiner:key=单词。value=文件名:次数N4.每个各自的mapredu...原创 2019-04-30 16:04:44 · 351 阅读 · 0 评论 -
MR程序运行的三种方式:window本地运行、windwo推送程序到linux集群运行、linux集群运行
大数据组件使用 总文章MR程序运行的三种方式:1.window本地运行MR程序: 1.IDEA 本地执行,只需要maven配置大数据组件的相关jar包即可。 2.需要: // 指定使用 本地执行 conf.set("map...原创 2019-04-26 16:01:21 · 1093 阅读 · 2 评论 -
集群中运行MR程序/spark程序时,引用不到/找不到集群中的jar包
大数据组件使用 总文章问题:window本地运行MR程序/spark程序时,是正常可以的,但是打包程序jar包到集群环境中运行时, 却报错 ClassNotFound 引用不到/找不到 第三方jar包中的类时。分析原因:window本地因为配置了maven正常依赖使用第三方jar包,但是把MR程序/spark程序打包为jar包上传到集群环境中时, ...原创 2019-04-26 15:27:27 · 975 阅读 · 0 评论 -
kudu 导入/导出 数据
大数据组件使用 总文章Impala 操作/读写 Kudu,使用druid连接池 Kudu 原理、API使用、代码 Kudu Java API 条件查询 spark读取kudu表导出数据为parquet文件(spark kudu parquet) kudu 导入/导出 数据 Kudu 分页查询的两种方式 Kudu 创建主键impala命令刷新元数据 1.impala-shel...原创 2019-06-04 16:00:23 · 3697 阅读 · 0 评论 -
Kudu Java API 条件查询
大数据组件使用 总文章Impala 操作/读写 Kudu,使用druid连接池 Kudu 原理、API使用、代码 Kudu Java API 条件查询 spark读取kudu表导出数据为parquet文件(spark kudu parquet) kudu 导入/导出 数据 Kudu 分页查询的两种方式 Kudu 创建主键链接:https://pan.baidu.com/s/1j...原创 2019-05-17 21:40:19 · 5977 阅读 · 15 评论 -
Impala 操作/读写 Kudu,使用druid连接池
大数据组件使用 总文章Impala 操作/读写 Kudu,使用druid连接池 Kudu 原理、API使用、代码 Kudu Java API 条件查询 spark读取kudu表导出数据为parquet文件(spark kudu parquet) kudu 导入/导出 数据 Kudu 分页查询的两种方式 Kudu 创建主键如果Maven下载ImpalaJDBC41不下来的话,可以到...原创 2019-05-15 14:29:30 · 6397 阅读 · 5 评论