flink 1.11 写入hive性能低下问题

最新推荐文章于 2022-09-29 14:56:23 发布

月下问心

最新推荐文章于 2022-09-29 14:56:23 发布

阅读量1.1k

点赞数

分类专栏： flink

本文链接：https://blog.csdn.net/xuen198721/article/details/109293470

版权

本文探讨了在Flink 1.11版本中，使用Hive Streaming Sink时遇到的性能问题，即每写入一条数据就触发文件大小判断，导致频繁访问NameNode从而影响性能。为解决这个问题，提出了自定义HiveBulkWriterFactory的方案，通过修改HiveTableSink的consumeDataStream方法，优化文件滚动策略，提升写入效率。

摘要由CSDN通过智能技术生成

hive streming sink 投入生产，发现写入性能底下，排查过后，发现是hive在每写入一条数据，都会判断文件大小来决定文件是否需要滚动，判断文件大小使用的hdfs的api，需要访问namenode，这就是写入性能底下的根源。截止到flink 1.11.2这个问题任然没有解决。

这个问题解决，需要自己实现HiveBulkWriterFactory，代码如下：

public class HiveBulkWriterFactory implements HadoopPathBasedBulkWriter.Factory<RowData> {

	private static final long serialVersionUID = 1L;

	private final HiveWriterFactory factory;

	public HiveBulkWriterFactory(HiveWriterFactory factory) {
		this.factory = factory;
	}

	@Override
	public HadoopPathBasedBulkWriter<RowData> create(Path targetPath, Path inProgressPath) throws IOException {
		FileSinkOperator.RecordWriter recordWriter = factory.createRecordWriter(inProgressPath);
		Function<RowData, Writable> rowConverter = factory.createRowDataConverter();
		FileSystem fs = FileSystem.get(inProgressPath.toUri(), factory.getJobConf());
		return new HadoopPathBasedBu

最低0.47元/天解锁文章

月下问心

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
flink 1.11 写入hive性能低下问题

hive streming sink 投入生产，发现写入性能底下，排查过后，发现是hive在每写入一条数据，都会判断文件大小来决定文件是否需要滚动，判断文件大小使用的hdfs的api，需要访问namenode，这就是写入性能底下的根源。截止到flink 1.11.2这个问题任然没有解决。这个问题解决，需要自己实现HiveBulkWriterFactory，代码如下：public class HiveBulkWriterFactory implements HadoopPathBasedBulkWrite
复制链接

扫一扫