自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 Build High Availability Two Nodes for Self-Host Integration Runtime

Lab preparationCreate ADF and two Virtual Machines from your Azure Portal.Quickstart: Create a data factory by using the Azure Data Factory UIQuickstart: Create a Windows virtual machine in the Azu...

2020-01-13 19:39:42 495 3

原创 NpgsqlConnector ETL的那点事

有时候我们需要调用NpgsqlConnector来完成ETL到PostgreSQL的迁移,不过会遇到一些问题,比如:在迁移数据到PostgreSQL数据库的时候,最后一个字节一直都写不到数据库。这个时候我们可以收集dump文件,从dump文件中,发现可疑的线程如下:000000ad`b79fdea8 00007ffa`cee5cc7entdll!ZwWaitForMultipleObjec...

2019-11-28 13:26:59 570

原创 Hive查询慢的那点事

当你用jdbc对HiveServer2做一些查询的时候,有时候会遇到一些延时,为了查找原因,我们可以收集jstack dump日志,它可以把Hiveserver2进程的所有线程的callstack打印出来提供你分析,那么如何分析jstack日志呢?1,一般情况下如果callstack发现有org.apache.thrift.server.TServlet.doPost function,那么就可...

2019-11-03 17:21:28 5886

原创 简单介绍什么是Hive

简单介绍什么是Hive什么是HiveHive是在Hadoop中处理结构化数据的数据仓库基础设施工具。它位于hadoop之上,针对大数据,使查询和分析变得简单。最初Hive是由FaceBook开发的,后来Apache软件基金会采用了它,并以Apache Hive的名字作为一个开放源代码进行了进一步的开发。它被不同的公司使用。例如,Amazon Elastic MapReduce, Microso...

2019-11-03 17:15:34 2299

原创 区块链的Merkle Tree

区块链的Merkle Tree这几天闲着没事,学习了一下北大肖老师的课程,觉得讲的还真不错,在第三课里讲到区块链是如何知道有人做了交易。在如上图黄色的部分tx就是一个交易的transaction,这样就会改变绿色哈希部分H()的值。这个值改变了就会一直改变对应的H()一直到改变Merklet Root以及root hash,通过root hash就可以知道是哪个节点做了修改。一般区块链钱包...

2019-11-03 10:37:49 210

原创 Hive性能测试

Hive性能测试有时候我们需要对Hive cluster做性能测试,如下的代码就是用多线程的方式对hive查询,300个线程作查询,从而测试hive的返回速度。package jdbc; import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;//import java....

2019-10-15 21:16:37 1801

原创 parquet与schema的那点事

parquet与schema的那点事最近做了一个从数据库迁移到parquet报异常的案例,错误如下:java.lang.IllegalArgumentException:No enum constant org.apache.parquet.schema.OriginalType.nihao total entry:11 java.lang.Enum.valueOf(Unknown Sourc...

2019-10-13 10:05:11 2643

原创 Hive查询慢的那点事2

Hive查询慢的那点事2有时候我们收集了HS2的Jstack dump后,你会发现有好多threads pending on waiting for specific thread, 这个specific thread在写debug log,如何Disk I/O不给力,也会导致Hive Query慢的情况,这样我们就需要disable Hive Debug log来提高Hive查询的速度。具体...

2019-10-08 20:53:49 3278

原创 如何验证SPN是否对ADLS有访问权限

如何验证SPN是否对ADLS有访问权限以下的程序就是用来验证SPN对ADLS的文件夹是否有访问权限:accountFQDN为ADLS的FQDN.path为ADLS对应的文件夹clientid clientkey为SPN的objectid以及key.authTokenEndpoint 为"https://login.microsoftonline.com/tenantID/oauth2/t...

2019-10-07 21:00:44 208

原创 如何迁移HDInsight Hive Table到Azure SQL Database

如何迁移HDInsight Hive Table到Azure SQL Database在我写的博客里提到过如何Load TXT 到HDInsight Hive table https://blog.csdn.net/weixin_44953126/article/details/102254360那么如何把Hive table迁移到Azure SQL Database呢?迁移到Azure SQ...

2019-10-07 15:37:30 171

原创 如何Load TXT 到HDInsight Hive table

如何Load TXT 到HDInsight Hive table记得以前做过一个小项目,需要把客户整理的TXT导入到数据库,然后结合客户的需求统计分析特定条件的报表,比如表的schema为:time, name, meeting, level。需求统计特定的时间有多少人开过会等等。迁移txt到数据库的方法有很多,比如:SSIS或者开发entity framework,读txt文件内容,然后写到...

2019-10-06 21:29:57 185

原创 如何发布Web应用到Azure

如何发布Web应用到Azure本地的web应用如下:在Azure上部署Web App服务:部署的时候,你可以选web运行时runtime是什么,我这个web应用example是基于ASP.Net开发的。创建好 Web App以后的样子:然后publish你的project到Azure的web app:点击Publish:如下图,你可以看到发布成功,web的DNS名字...

2019-09-30 14:25:51 631

原创 AWS EMR Vs HDInsight Vs Aliyun Cloud E-MapReduce之架构篇

AWS EMR Vs HDInsight Vs Aliyun Cloud E-MapReduce之架构篇从大数据的架构上,我们可以看出AWS EMR和Aliyun Cloud E-MapReduce蛮像的,HDInsight则有些不同。HDI的节点功能介绍:Head nodes:一共两台,可提供高可用性。HDFS,Yarn的服务都跑在主节点上,其它服务,比如HiveServer2, Hive...

2019-09-30 12:29:55 609

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除