自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 RDD、DataFrame、DataSet的概念、区别联系、相互转换操作

RDD、DataFrame、Dataset都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利。RDD,作为Spark的核心数据抽象,是Spark当中不可或缺的存在,而在SparkSQL中,Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet

2022-12-12 08:03:00 446 1

原创 【无标题】Flume采集数据到Hive&HBase

Flume的HBaseSinks分为两大类:1.它提供的两种序列化模式SimpleHbaseEventSerializer(将整个事件的event的body部分当作完整的一列写入HBase,且只能被插入一个Column)和RegexHbaseEventSerializer(根据正则表达式将event的body拆分到不同的列当中,可插入同一个rowkey对应的同一个columnFamily的多个column)优点:安全性较高,支持FLUME-1626,支持往secure hbase写数据;

2022-11-11 20:23:30 242

原创 Hive整合Hbase

注意:整合完成之后,如果在hive当中创建的为内部表,那么在hive中删除该表时,hbase上对应的表也会删除;Hive与HBase整合的实现是利用两者本身对外的API接口互相通信来完成的,其具体工作交由Hive的lib目录中的hive-hbase-handler-*.jar工具类来实现。(三)通过整合,不仅可完成HBase的数据实时查询,也可以使用Hive查询HBase中的数据完成复杂的数据分析。3. 启动hbase,在hive中创建映射表,创建完成后在hbase中查看是否同时在hbase中也创建成功。

2022-11-04 21:44:13 479

原创 Hive对库对表的操作

Hive对表对库操作

2022-10-21 16:31:50 543

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除