Hive
三生三世
程序猿与汪
一枚专注于大数据领域知识的程序汪
展开
-
千亿数仓/Hive-基础操作:建表:内部表,外部表,分区表,分桶表(hash分区表),六种导入数据方式,查询分析,HQL与SQL异同:全局排序局部排序,左半连接;Hive工作中小技巧
Hive基础操作–>学hive我们就学三个知识:1. 建表 create table,2. 导入数据 :insert into select,3. 查询分析:selectDDL:表的创建:内部表,外部表,分区表,分桶表DML:导入数据:6种方式1.关于直接使用HDFS命令来导入数据2.insert导出数据:注意:insert into table....select表示将select查询出来内容导入到一张表中insert overwrite directory ....selec原创 2020-08-09 01:38:25 · 1006 阅读 · 1 评论 -
Hive-CDH-5.14.2添加Hive
共七步一步也不能少,按照步骤进行,是一定可以添加成功的!!!目录标题1.分发mysql-connector2.CDH添加Hive服务3. 对hive-site.xml进行修改4.进行mysql进行操作5.使用hive的Schema创建metastore库6.继续安装7.查看是否安装成功1.分发mysql-connector添加mysql-connector-java-5.1.38包到hive的lib目录下,并分发到每一个节点中//CDH的hive的lib目录路径cp /opt/software/m原创 2020-06-19 00:36:54 · 404 阅读 · 0 评论 -
大数据组件-sparkSQL数据读取框架,数据写入框架,读写Parquet,json数据格式,sparkSQL:读写分区,整合Hive,通过JDBC读写mysql数据库
1.数据读取框架DataFrameReder(1)使用场景SparkSQL中专门有一个框架用于读取外部数据源,叫做DataFrameReder(2)构成1.schema结构信息2.option读取时的参数3.format数据源类型(3)示例import org.apache.spark.sql.{DataFrame, SparkSession}import org.junit.Testclass sparkSQLDemo { @Test def read原创 2020-06-07 13:08:48 · 520 阅读 · 0 评论 -
大数据组件-HBase和MapReduce的集合,读取HDFS到HBase,hive和HBase整合,HBase的预分区
1.HBase和MapReduce的集成HBse集成MR的中文API文档需求:将myuser表当中的f1列族的name和age字段写入待myuser2这张表的f1列族当中去ImmutableBytesWritable 序列,hbase的存储类型NullWriter没有数据context上下文的作用是起到桥梁作用把map阶段处理完的数据传递给reduce阶段(1)在原有基础上导入集成MR的maven工程(2)代码实现本地运行1.创建Mapper类,读取出表myuser的name和age字段,写原创 2020-05-27 14:50:54 · 349 阅读 · 0 评论 -
大数据疑难杂症-安装hive后启动失败问题
目录标题1.报错截图2.原因3.解决方案1.报错截图2.原因没有hive的元数据表。3.解决方案1)在配置hive-site.xml的jdbc的url时,在连接中加上createDatabaseIfNotExist=true2)使用该命令创建hive元数据表schematool -initSchema -dbType mysql...原创 2020-05-07 22:40:31 · 204 阅读 · 0 评论 -
大数据组件-Hive简介,分层架构,安装方式,hive交互,数据库,数据表操作,自定义hive函数,hive数据存储,hive调优
啊啊啊原创 2020-05-30 06:33:27 · 416 阅读 · 0 评论