大数据
三房头o
这个作者很懒,什么都没留下…
展开
-
spark安装配置(二)
1 spark 安装1)上传解压tar -zxvf xxxx 2)修改配置mv spark-env.sh.template spark-env.sh修改spark-env.sh3)启动帮助命令bin/spark-shell-help启动命令交互式bin/spark-shell --master local[2]4)是否启动不报错且进入交互式命令行在外部端口404...原创 2019-08-02 21:10:14 · 166 阅读 · 0 评论 -
如何彻底删除Kafka中的topic (marked for deletion)
工作中因为各种原因, 例如topic中消息堆积的太多,或者kafka所在磁盘空间满了等等,可能需要彻底清理一下kafka topic,那么如何彻底删除topic?方法一(配置delete.topic.enable=true) 修改kafaka配置文件server.properties, 添加delete.topic.enable=true,重启kafka,之后通过kafka命令行就可以...原创 2019-08-10 22:06:52 · 421 阅读 · 0 评论 -
Spark Streaming入门
Spark Streaming类似于Apache Storm,用于流式数据的处理。Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据源有很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象操作如:map、reduce、join、window等进行运算。而结果也能保存在很多...原创 2019-08-10 09:14:57 · 220 阅读 · 0 评论 -
大数据项目
一、项目流程 1)需求概况:实现目标是什么? ——— 通过大数据获取什么信息 2)需求分析:用什么样的数据,实现什么样的效果。 数据源的考量(数据的种类和量的大小),数据呈现的思考(实时,非实时性)。 &nbs...原创 2019-08-19 11:05:57 · 732 阅读 · 0 评论 -
TDH与CDH简介
TDH与CDH简介 hadoop是一个开源项目,所以很多公司在这个基础进行商业化,下面简单介绍下应用比较广泛的TDH和CDH两个版本【TDH】TDH:Transwarp Data Hub1 Transwarp Inceptor简介TranswarpInceptor是星环科技推出的用于数据仓库和交互式分析的大数据平台软件,它基于Hadoop和Spark技术平台打造,加上自主开发的创新功能组...原创 2019-08-08 19:43:39 · 3738 阅读 · 0 评论 -
Spark入门(一)
Spark 入门spark框架是如何处理数据的Hadoop MapReduce 框架并行计算的思想分而治之的思想scala集合高阶函数处理数据的思想将要分析的数据放在集合中去,然后调用集合的高阶函数处理数据spark是什么Apache Spark™ is a unified analytics engine for large-scale data ...原创 2019-08-01 21:07:03 · 113 阅读 · 0 评论 -
大数据从入门到放弃
大数据的核心:海量数据分析—————————————————————功能划分—————————————————————————————海量数据存储HDFS,Hive(本质还是HDFS),HBASE(底层依旧是HDFS)数据清洗MapReduce,Hive(ETL),SparkCore海量数据分析MapReduce,SparkSQL,hive(SQL),impala数据展示jav...原创 2019-08-08 08:59:59 · 495 阅读 · 0 评论 -
ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing
https://blog.csdn.net/liuxiao723846/article/details/53146304我当时将mysql的数据导入数据的时候就出了这个错误然后在报的错误里面发现10020,将历史进程启动就好了10020是历史进程的内部端口,外部端口是19888...原创 2019-07-30 22:20:35 · 90 阅读 · 0 评论 -
spark---RDD (三)
RDDRDD就是一个集合,在使用的时候,就当做为Scala 集合类中List列表实质分布式存储数据集合abstract class RDD [T:ClassTag]A Resilient(弹性) Distributed(分布式) Dataset(RDD)Represents(代表) an immutable(不可变) partitoned(分区) collection of ele...原创 2019-08-02 22:31:03 · 140 阅读 · 0 评论 -
sqoop的安装使用
介绍大数据Hadoop框架生态系统中一员只有map阶段,没有reduce阶段作用Sqoop可以理解为一个桥梁可以将hadoop中的hdfs文件系统中的文件导入到RDBMS中也可以将RDBMS中表以文件的形式导入到hdfs文件系统中同样,也可以将hive中的表导出到RDBMS中,也可以将hive中...原创 2019-09-19 11:13:06 · 92 阅读 · 0 评论