如何Load TXT 到HDInsight Hive table
记得以前做过一个小项目,需要把客户整理的TXT导入到数据库,然后结合客户的需求统计分析特定条件的报表,比如表的schema为:time, name, meeting, level。需求统计特定的时间有多少人开过会等等。
迁移txt到数据库的方法有很多,比如:SSIS或者开发entity framework,读txt文件内容,然后写到数据库。这里我们介绍如何用HDInsight load txt到 HDI hive table,同样可以实现客户的需求。
上传hivetable.txt到HDI的headnode。
SSH到创建好的HDInsight headnode,查看文件内容。
sshuser@hn0-hdites:~$ cat hivetable.txt
linlin,123,male
brian,345,male
lin,567,female
复制txt文件到HDFS存储:
hdfs dfs -copyFromLocal hivetable.txt wasb://hditest-2019-10-06t08-00-38-459z@hditest.blob.core.windows.net/hive/
Note: hditest.blob.core.windows.net为Azure Blob存储数据库。
连接到Hive接口:
beeline -u 'jdbc:hive2://headnodehost:10001/;transportMode=http'
针对TXT文件,创建表结构如下: