Hive 数据操作之JDBC总结

Hive 数据操作之JDBC总结

1. 背景

  1. Hive作为一个处理结构化数据和文件的工具,可以通过多种方式进行数据操作和处理。
  2. Hive本身可以简单看成一个将sql语句转化为mapreduce程序或者类mapreduce程序的转换器,数据处理还是由转换出来的mapreduce程序在处理。
  3. Hive可以将结构化数据转换为一张表,然后通过HQL(属于SQL规范的一种实现方式)来进行数据查询和操作。
  4. 数据操作则可以简单分为几类操作
  1. 数据导入
  2. 数据导出
  3. 数据插入
  4. 数据查询
  5. 数据更新和删除(在hive的场景中,一般不会使用到数据更新和删除,绝大部分场景都是数据一次导入,多次查询和分析)
  1. Hive的连接和操作方式,则和其他服务器端程序类似,分为shell 客户端、java api、网页端。
  • shell 客户端
    shell客户端一般都是最直接的方式,一般性能也是最快的,因为少了其他方式的通信消耗,直接在节点或者集群上进行操作。
  1. 直连之hive
hive

在这里插入图片描述
在这里插入图片描述
2. shell通过beeline方式进行jdbc连接,数据会有一定格式化,查看起来更加美观直接

beeline

在这里插入图片描述

!connect jdbc:hive2://linux100:10000
# 账号是root,密码无,直接按下enter按键即可
root

在这里插入图片描述
在这里插入图片描述

  • java api
    一般类数据库的操作java端都是jdbc方式,mysql、oracle、clickhouse、hbase、包括本次的hive。一般都需要导入驱动jar包
  • 网页端,端口号默认是10002,当然这个可以进行配置设定
    http://linux100:10002/
    在这里插入图片描述

2. 环境准备

  1. Idea2020版本、windows10、jdk1.8、maven3.6.3。
  2. linux集群(基于centos 7.x)、集群安装好jdk1.8,安装好hadoop3.2.1,安装好hive 3.1.2,安装好mysql5.7
    如果不知道如何安装这些环境,可以搜索我其他博客。
  3. 启动集群中hdfs、yarn、mysql、hive服务
    注意,先启动hdfs和yarn服务,然后启动mysql服务,启动hive服务时,注意metastore和hiveserver2服务都需要启动

3.代码

  1. 创建maven项目,pom文件如下. 这里不涉及打jar包,所以没有导入打包依赖,否则需要导入将依赖jar包打入package的插件
<dependencies>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.8.5</version>
        </dependency>

        <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-client -->
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>3.2.1</version>
        </dependency>
        
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值