Hive
文章平均质量分 80
張萠飛
这个作者很懒,什么都没留下…
展开
-
Hive分隔符
Table of Contents特殊字符通过digraph输入测试数据查看隐藏字符的方法catvim特殊字符以下这些字符是可以在Hive中应用,并且DATAX也支持的:char digraph hex dec official name Unicode ^@ NU 0x00 0 NULL (NUL)N...转载 2020-04-04 21:53:13 · 2820 阅读 · 0 评论 -
多语言连接hive(Java、python、ruby)
JDBCHiveServer2 有一个 JDBC 驱动程序。它支持对 HiveServer2 的嵌入式和远程访问。建议将 Remote HiveServer2 模式用于生产环境,因为它更安全,而且不需要为用户授予直接的 HDFS/metastore 访问权限。Using JDBC可以使用 JDBC 访问存储在关系数据库或其他表格格式中的数据。1、加载 HiveServe...翻译 2020-03-02 22:12:59 · 595 阅读 · 1 评论 -
hive序列化
Table of ContentsAvroSerDe概述使用需求Avro 到 Hive 类型转换创建avro支持的Hive表All Hive versionsHive 0.14 and later versions将表写入Avro文件All Hive versionsHive 0.14 and laterAvro文件扩展名指定表的Avro模式Us...翻译 2020-01-07 15:31:31 · 1570 阅读 · 0 评论 -
hive压缩格式
Table of ContentsORC FilesORC 文件格式文件结构Stripe StructureHiveQL Syntax hivesql语法Serialization and Compression 序列化和压缩Integer Column Serialization 整型列序列化String Column Serialization 字符串列序列化...翻译 2019-12-17 21:18:58 · 698 阅读 · 0 评论 -
hive 算子和用户自定义函数 UDF UDAF UDTF
Table of ContentsBuilt-in Operators关系运算符算术运算符逻辑运算符字符串操作符复杂类型构造函数复杂类型上的运算符Built-in FunctionsBuilt-in Aggregate Functions (UDAF)Built-in Table-Generating Functions (UDTF)使用样例Bui...翻译 2019-12-13 17:55:32 · 742 阅读 · 0 评论 -
hivesql优化简述
sql 中缩减查询范围,即指定分区和字段 where 中的条件尽量写在前面,减少后续的数据量 sort by 代替 order by group by 替代 distinct group by map 端使用 combiner 对数据进行预先聚合 group by 处理数据倾斜 多表 join 的时候,小表写在 join 前面 多表 join 的时候,关联字段尽量写成一样的,即 on...翻译 2019-12-07 19:38:17 · 257 阅读 · 0 评论 -
This command is not allowed on an ACID table mydb1.table_name with a non-ACID transaction manager.
set hive.support.concurrency=true;set hive.txn.manager=org.apache.hadoop.hive.ql.lockmgr.DbTxnManager;在执行 insert 之前先执行以上两条 set 命令就不会报错了,执行结果如下:有关 ACID 表的相关请查阅:Attempt to do update or delet...原创 2019-10-14 15:36:12 · 2698 阅读 · 0 评论 -
Attempt to do update or delete using transaction manager that does not support these operations
背景说明删除只能在支持ACID的表上执行。ACID 代表数据库事务的四个特征:原子性(手术完全成功或失败,它没有离开部分数据) 一致性(一旦应用程序执行一个操作,操作的结果是可见的在每个后续操作) 隔离(由一个用户一个不完整的操作不会引起意想不到的副作用为其他用户) 持久性(一个操作完成后它将被保留下来即使面对机器或系统故障)。长期以来,人们期望数据库系统具有这些特性,并将其作...原创 2019-10-14 11:28:05 · 11393 阅读 · 0 评论 -
Hive sql 之 Order, Sort, Cluster, and Distribute By
目录Order BySort BySort By 和Order By 的不同Sort By 之前,设置字段类型Cluster By and Distribute By描述了 SELECT 子句 ORDER BY、SORT BY、CLUSTER BY 和 DISTRIBUTE BY 的语法。Order By与 SQL 中的 ORDER BY 类似(默认排序为升序)...原创 2019-10-12 16:35:09 · 638 阅读 · 0 评论 -
Map Reduce执行流程以及Hive执行insert overwrite 底层是怎么跑数据的
目录MR简述MR执行流程Input阶段Mapper阶段Reducer阶段例子insert overwrite table翻译日志MR简述MapReduce 作业通常将输入数据集分割成独立的块,这些块由 map 任务以完全并行的方式进行处理。MR框架对映射的输出进行排序,然后将其输入到 reduce 任务中。通常,作业的输入和输出都存储在文件系统中。该框...原创 2019-10-11 15:39:26 · 4642 阅读 · 0 评论 -
7、Flink Table API & SQL - SQL (DDL/DML)
阅读本章,基于已经阅读了Flink Table API & SQL - 概念和通用API这是Flink中支持的数据定义语言(DDL)和数据操作语言(DML)构造的完整列表。目录查询初始化查询支持的语法操作DDL指定DDL建表PARTITIONED BYWITH OPTIONS删表IF EXISTS数据类型保留关键字查询...翻译 2019-09-10 19:53:03 · 5682 阅读 · 1 评论 -
13.4、Flink Table API & SQL - Hive 之 在scala shell中使用Hive连接器
Flink Scala Shell是尝试Flink的一种方便快捷的方法。您也可以在scala shell中使用hive,而不是在pom文件中指定hive依赖项,而是打包您的程序并通过flink run命令提交它。为了在scala shell中使用hive连接器,您需要将以下hive连接器依赖项放在flink dist的lib文件夹下。flink-connector-hive_{scala_ve...翻译 2019-08-26 18:41:46 · 622 阅读 · 0 评论 -
13.3、Flink Table API & SQL - Hive 之 Hive函数
用户自定义函数用户可以在Flink中使用他们现有的Hive用户定义函数。支持的UDF函数包括以下:UDF GenericUDF GenericUDTF UDAF GenericUDAFResolver2通过查询计划和执行,Hive的UDF和GenericUDF被自动转换为Flink的ScalarFunction, Hive的GenericUDTF被自动转换为Flink的Tab...翻译 2019-08-26 13:27:11 · 695 阅读 · 0 评论 -
11、Flink Table API & SQL - Catalogs(使用概览和样例)
Catalogs提供了元数据,例如数据库、表、分区、视图、函数和访问存储在数据库或其他外部系统中的数据所需的信息。数据处理最重要的方面之一是管理元数据。它可以是临时表之类的临时元数据,也可以是针对表环境注册的UDF函数。或者永久的元数据,比如Hive中的元数据。Catalogs提供了一个统一的API来管理元数据,并可以通过表API和SQL查询。Catalog TypesGenericI...翻译 2019-08-26 12:50:23 · 6397 阅读 · 0 评论 -
13.2、Flink Table API & SQL - Hive 之 读写Hive表
使用HiveCatalog和Flink到Hive的连接器,Flink可以读写Hive数据,作为Hive批处理引擎的替代。一定要按照说明在应用程序中包含正确的依赖项(见Flink Table API & SQL - Hive之hive概览)。读表假设Hive在其默认数据库中包含一个表,名为people,其中包含几行。hive> show databases;OKdef...翻译 2019-08-26 12:51:30 · 2778 阅读 · 0 评论 -
13.1、Flink Table API & SQL - Hive之hive概览
Apache Hive已经成为数据仓库生态系统的焦点。它不仅是一个用于大数据分析和ETL的SQL引擎,也是一个数据管理平台,在这里数据被发现、定义和发展。Flink提供了与Hive的双重集成。第一种方法是利用Hive的Metastore作为一个持久目录,在会话之间存储Flink特定的元数据。第二个是提供Flink作为读取和写入Hive表的替代引擎。hive目录被设计为与现有hive安装兼容...翻译 2019-08-25 18:13:58 · 3381 阅读 · 0 评论 -
Hive创建/删除/截断表
目录创建表内部表和外部表存储格式行格式& SerDePartitioned TablesExternal TablesCreate Table As Select (CTAS)Create Table LikeBucketed Sorted TablesSkewed Tables(倾斜表)Temporary Tables(临时表)Transa...翻译 2019-10-22 21:03:02 · 2824 阅读 · 0 评论 -
Hive创建、删除、修改、使用数据库
创建数据库create (database|schema) [if not exists] database_name [comment database_comment] [location hdfs_path] [with dbproperties (property_name=property_value, ...)];schema和database的用法是可以互换的 -原创 2018-02-06 17:18:30 · 3238 阅读 · 0 评论