先说结论:CAT监控不了springCloudGateway的接口调用情况。
需求:
想使用大名鼎鼎的CAT对网关进行埋点监控。其中网关的下游系统可能是eureka注册中心的上的服务,也可能是一个简单的HTTP接口【http接口也可能是域名或者SLB】。监控每一个下游系统每一个接口的调用量、耗时、异常统计。
实践:
import com.dianping.cat.Cat;
import com.dianping.cat.message.Transaction;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.cloud.gateway.filter.GatewayFilterChain;
import org.springframework.cloud.gateway.filter.GlobalFilter;
import org.springframework.core.Ordered;
import org.springframework.http.HttpStatus;
import org.springframework.stereotype.Component;
import org.springframework.web.server.ServerWebExchange;
import reactor.core.publisher.Mono;
import java.net.URI;
import static org.springframework.cloud.gateway.support.ServerWebExchangeUtils.GATEWAY_REQUEST_URL_ATTR;
/**
* @author xtj
* @date 2018/12/13 2:58
*/
@Component
public class CatLogGlobalFliter implements GlobalFilter, Ordered {
private static final Logger LOGGER = LoggerFactory.getLogger(CatLogGlobalFliter.class);
public static final String CAT_T_AUTH_GATEWAY = "CAT_T_AUTH_GATEWAY";
@Override
public Mono<Void> filter(ServerWebExchange exchange, GatewayFilterChain chain) {
// request.getURI() 原始URL
// getURI().getRawPath()
// 获取URL.并且这个URL是代理后的真正服务器的URL.
try {
URI urlOrigin = exchange.getRequest().getURI();
if (!(urlOrigin.toString().contains("favicon.ico"))) {
URI url = exchange.getAttribute(GATEWAY_REQUEST_URL_ATTR);
Transaction t;
if (url != null) {
t = Cat.newTransaction("targetService", url.toString());
} else {
t = Cat.newTransaction("targetService", urlOrigin.toString());
}
exchange.getAttributes().put(CAT_T_AUTH_GATEWAY, t);
}
} catch (Exception e) {
LOGGER.error("CAT发生异常", e);
}
return chain.filter(exchange).then(Mono.fromRunnable(() -> {
try {
Transaction t = exchange.getAttribute(CAT_T_AUTH_GATEWAY);
if (t != null) {
HttpStatus status = exchange.getResponse().getStatusCode();
t.setStatus("1");
if (status.equals(HttpStatus.OK)) {
t.setStatus("0");
}
t.complete();
}
} catch (Exception e) {
LOGGER.error("CAT发生异常", e);
}
}));
}
/**
* RouteToRequestUrlFilter将请求的URL放进exchange中的HashMap中,
* KEY是org.springframework.cloud.gateway.support.ServerWebExchangeUtils.GATEWAY_REQUEST_URL_ATTR
* 而在本全局过滤器重,会从exchange得到请求URL,作为我们埋点需要的一个数据。
* 因此本过滤器的顺序要在RouteToRequestUrlFilter之后。
* RouteToRequestUrlFilter的顺序ID是10000,所以设置本过滤器顺序id稍微大一点,变成10001。
*/
@Override
public int getOrder() {
return 10001;
}
}
测试结果:
CAT客户端上传数据到服务端还是比较迅速的,普通项目在测试的时候,基本上调用一次接口,CAT服务器上Transaction都会很快可以看到。
但是在测试网关这个CAT埋点的时候,发现调用了好几次,才有一次记录,并且logView后,发现Transaction之间有很多嵌套。而我们的代码也很简单,没有嵌套。
原因分析:
正常我们在cat-Transaction完成的时候,即调用complete方法的时候,跟进源码里面,正常的应该走下面的逻辑。
注意第130行代码,是获取一个Context对象,也就是一个上下文容器,这个上下文容器是一个线程一个。因此存在ThreadLocal中的。而Context中保存着一个栈元素,Transaction开始的时候入栈,complete的时候出栈,这也就是CAT能用来发现方法调用中到底是那个方法最耗时的原理。
正常情况下是没有问题的,但是在springCloudGateway使用了异步netty,也就是说在发起真正的请求下游前和在得到response后的处理已经不是一个线程了。这样就会导致使用threadLocal产生不是我们想要的结果,即发生线程同步问题。
这个问题是比较严重的,CAT中的Transaction开始后,必须调用complete方法,不然会有内存泄露问题!包括Event的记录,也是依赖上面的threadLocal原理。即使简单记录event,而不使用Transaction,也是会有问题的,在logView中会看到很多嵌套的event,而这些并不是我们预期的产生的。
结论:
不要在springCloudGateway中使用CAT,会造成很大的问题和风险。这个结论也和cat负责人确认过。