1►
引言:
开源大数据平台 E-MapReduce(简称“EMR”)是云原生开源大数据平台,向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎。
EMR目前支持了日志管理,即日志客户SLS投递的功能,基于此功能,客户可以将需要的各种大数据组件日志收集到自身SLS中,做查询和分析。基于此功能,客户可以自定义日志路径、规则,对集群设备上的日志自行接收和消费。本文以采集指标文件为例,帮助您快速上手自定义日志投递与使用。
2►
关键字:
E-MapReduce,日志管理,日志投递,日志消费
3►
前提条件:
已有阿里云EMR集群,且已开启日志查询功能。更多信息,请参见管理日志。
4►
步骤1:配置采集
登陆E-MapReduce服务控制台。
选择前往日志服务控制台,点击右上角前往日志服务控制台。
创建日志库,选择合适的数据保存时间。
在新建日志库下点开logtail配置,选择json文件日志。
若开启日志投递,会看到已有的机器组,应用该机器组。
配置Logtail
设置日志路径/mnt/disk1/log/taihao_exporter/**/metrics.log*
然后点击下一步至完成。
索引配置(可选)
也可以配置索引方便对其做搜索,如图所示自动生成索引。
5►
步骤2:查询指标
配置完毕后,就可以在sls上看到指标了。
您可以在Logstore的查询和分析页面,输入查询语句,选择时间范围,单击查找/分析,进行日志查询操作。
查询指标名为yarn_nodemanager_jvm_GcTimeMillis的值。
* and name: yarn_nodemanager_jvm_GcTimeMillis
查询指标名为yarn_nodemanager_jvm_GcTimeMillis且value>200的值。
* and name: yarn_nodemanager_jvm_GcTimeMillis and value > 200
查询header节点的yarn_timelineserver_jvm_GcTimeMillis指标。
* and hostname: "emr-header-1.cluster-500202362" and name: yarn_timelineserver_jvm_GcTimeMillis
6►
步骤3:分析日志
您可以在Logstore的查询和分析页面,输入查询和分析语句,选择时间范围,单击查找/分析,进行日志分析操作。
统计不同指标的数量。
* | SELECT "name", COUNT(*) AS PV GROUP BY "name"
计算不同时刻对应的指标数量,并按照时刻进行升序排序。
* | SELECT "timestamp", COUNT(*) AS count GROUP BY "timestamp" ORDER BY "timestamp"
7►
参考信息:日志样例
钉钉扫码进群,了解更多详情
点击「阅读原文」查看原文