大数据
小姚同學
java码农一枚
展开
-
CDH 启动kafka服务遇到的问题
一、启动kafka问题CDH安装好kafka服务后发现启动不起来,报错是:Fatal error during KafkaServerStartable startup. Prepare to shutdown java.lang.OutOfMemoryError: Java heap space at java.nio.HeapByteBuffer.<init>(HeapB...原创 2020-02-13 15:49:41 · 921 阅读 · 0 评论 -
MongoDB on Spark SQL 统计数据并保存到MySQL
目录一、业务需求二、业务实现方案1.技术栈2.业务实现流程三、技术实现1.添加pom依赖2.代码实现 2.1 UVStatJob 主类 2.2UVAccessStat 映射实体类 2.3 StatDAO数据库操作类 2.4 MySQL数据库工具类3.运行结果一、业务需求网站用户行为记录存储在MongoDB数据库中,利用大数据计算出...原创 2020-02-05 19:32:23 · 1738 阅读 · 1 评论 -
大数据离线分析系统:统计网站PV、UV
目录一、业务需求二、业务实现方案1.技术栈2.业务实现流程3.离线分析系统架构图三、技术实现1.Hadoop CDH集群管理平台2.Flume采集服务器日志数据到HDFS3.Spark SQL清洗数据4.建立Hive仓库并导入清洗完的数据5.HQL统计分析PV、UV数据6.Sqoop同步数据7.代码分享8.相关博客文章一、业务需求...原创 2020-01-10 14:17:43 · 4427 阅读 · 3 评论 -
CDH5.16.2离线安装spark2.1
目录一、简介:二、安装装备二、开始安装三、添加和启动spark2服务一、简介:在我的CDH5.16集群中,默认安装的spark是1.6版本,这里需要将其升级为spark2.x版本。经查阅官方文档,发现spark1.6和2.x是可以并行安装的,也就是说可以不用删除默认的1.6版本,可以直接安装2.x版本,它们各自用的端口也是不一样的。我尝试了安装spark2.0版本和s...原创 2020-01-08 11:15:07 · 1030 阅读 · 0 评论 -
sqoop同步数据报错
一、sqoop同步数据报错(一)1.问题描述:sqoop将MySQL的数据同步到hive中报错:rolException: Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x at org.apache.hadoop.hdfs.server.namenod...原创 2019-10-22 16:49:08 · 613 阅读 · 0 评论 -
【Spark SQL实战】日志分析(三)结果可视化
笔记目录:【Spark SQL实战】日志分析(一)介绍、数据清洗【Spark SQL实战】日志分析(二)实现项目需求【Spark SQL实战】日志分析(三)结果可视化目录一、使用ECharts可视化框架1、基本使用2、静态测试3、创建工程,添加依赖,编写代码4、前端代码5、修改web.xml二、使用Zeppelin代码及需要的js文件下载...原创 2019-09-25 16:00:06 · 670 阅读 · 0 评论 -
【Spark SQL实战】日志分析(二)实现需求
笔记目录:【Spark SQL实战】日志分析(一)介绍、数据清洗【Spark SQL实战】日志分析(二)实现项目需求【Spark SQL实战】日志分析(三)结果可视化目录一、项目需求二、创建数据库表三、代码实现1、pom.xml中添加依赖2、MySqlUtils.scala -> 获取、释放数据库连接3、实体类4、StatDAO.scal...原创 2019-09-25 15:58:12 · 488 阅读 · 0 评论 -
【Spark SQL实战】日志分析(一)介绍、数据清洗
笔记目录:【Spark SQL实战】日志分析(一)介绍、数据清洗【Spark SQL实战】日志分析(二)实现项目需求【Spark SQL实战】日志分析(三)结果可视化目录一、用户行为日志1.日志介绍2.日志数据内容二、数据处理流程1、数据采集2、数据清洗3、数据处理4、处理结果入库5、数据可视化三、项目需求四、数据清洗五、数...原创 2019-09-25 15:51:31 · 1827 阅读 · 0 评论 -
IP地址解析之github中ipdatabase项目的使用
目录一、下载ipdatabase项目代码二、编译ipdatabase三、安装到maven仓库四、项目上使用一、下载ipdatabase项目代码GitHub地址:https://github.com/wzhe06/ipdatabase使用git下载(没安装git的可以看一下这篇文章:Git下载、安装与环境配置)git clonehttps://github.c...原创 2019-09-25 14:44:21 · 898 阅读 · 1 评论 -
Sqoop安装配置及Mysql->Hive数据导入实践
写在前面本博客基于的环境如下:OS版本: centos7.5Hadoop版本: Hadoop-2.6.5Hive版本: Hive-1.2.2Sqoop版本: Sqoop-1.4.7目录一、Sqoop安装1、下载2、解压3、配置环境变量4、Sqoop配置5、mysql-connector-java放入6、测试Sqoop二、Sqoop:Mysql-a...原创 2019-09-17 12:10:52 · 1564 阅读 · 7 评论 -
【day01】MapReduce
目录MapReduce简介MapReduce分而治之思想MapReduce执行流程MapReduce shuffle过程:wordcountMapReduce实现架构MapReduce任务提交流程MapReduce简介MapReduce MapReduce是一个用于处理海量数据的分布式计算框架 。- 此框架解决了:- 数据分布式存储- 作业调度...原创 2019-08-13 09:57:27 · 181 阅读 · 0 评论 -
【Hadoop入门】Hadoop的架构介绍
Hadoop的概念 Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成。 Hadoop是一套开源的软件平台,利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理。诞生...转载 2018-08-30 10:48:15 · 668 阅读 · 0 评论