1 前言
Elasticsearch(ES)是一个基于Lucene的分布式存储和搜索分析系统,本文希望从源码的角度分析ES在保证数据的可靠性、实时性和一致性前提下,其写入的具体流程。
写入也是整个ES系统里面,最主要的流程之一,便于更好的理解ES的内部原理和逻辑,关于ES数据存储结构请参考:【Elasticsearch】原理-Elasticsearch数据存储结构与写入流程。
2 写入基本流程
图片来自官网,源代码取自6.7.1版本:
ES的写入采用一主多副的模式,写操作一般会经过三种节点:协调节点、主分片所在节点、副本分片所在节点。
客户端发送请求到Node1(相当于协调节点),协调节点收到请求之后,确认写入的文档属于分片P0,于是将请求转发给P0所在的节点Node3,Node3写完成之后将请求转发到P0所属的副本R0所在的节点Node1和Node2。
什么时候给客户端返回成功呢?
特别注意: 取决于wait_for_active_shards参数:需要确认的分片数,默认为1,即主分片写入成功就返回客户端结果。
/**
* The number of active shard copies to check for before proceeding with a write operation.
*/
public static final Setting<ActiveShardCount> SETTING_WAIT_FOR_ACTIVE_SHARDS =
new Setting<>("index.write.wait_for_active_shards",
"1",
ActiveShardCount::parseString,
Setting.Property.Dynamic,
Setting.Property.IndexScope);
以上是写入的大体流程,整个详细的流程,通过源码进行分析。
3 写入源码分析
ES的写入官方提供了两种写入方式:index,逐条写入;Bulk,批量写入。对于这两种方式,ES都会转化成Bulk写入。
3.1 bulk请求分发
ES的写入请求一般会进过两层处理,首先的Rest层(进行请求参数解析),另一层是Transport层(进行实际的请求处理)。在每一层处理前都有一次请求分发:
客户端发送过来的HTTP请求由HttpServerTransport初步处理后进入RestController模块进行实际的分发过程:
public void dispatchRequest(RestRequest request, RestChannel channel, ThreadContext threadContext) {
if (request.rawPath().equals("/favicon.ico")) {
handleFavicon(request, channel);
return;
}
try {
//找出所有可能的handlers,然后分发这些请求
tryAllHandlers(request, channel, threadContext);
} catch (Exception e) {
.......
}
}
上面dispatchRequest方法,会通过tryAllHandlers方法找出所有可能的handlers,并分发请求,代码如下:
void tryAllHandlers(final RestRequest request, final RestChannel channel, final ThreadContext threadContext) throws Exception {
for (String key : headersToCopy) {
String httpHeader = request.header(key);
if (httpHeader != null) {
threadContext.putHeader(key, httpHeader);
}
}
.....
// 获取所有可能的Handler,并尝试分发request请求
Iterator<MethodHandlers> allHandlers = getAllHandlers(request);
for (Iterator<MethodHandlers> it = allHandlers; it.hasNext(); ) {
final Optional<RestHandler> mHandler = Optional.ofNullable(it.next()).flatMap(mh -> mh.getHandler(request.method()));
//进行request请求分发,如果分发成功,则返回true
requestHandled = dispatchRequest(request, channel, client, mHandler);
if (requestHandled) {
break;
}
}
.....
}
首先根据request找到其对应的handler,然后在dispatchRequest中调用handler的handleRequest方法处理请求。那么getHandler是如何根据请求找到对应的handler的呢?这块的逻辑如下:
Iterator<MethodHandlers> getAllHandlers(final RestRequest request) {
final Map<String, String> originalParams = new HashMap<>(request.params());
return handlers.retrieveAll(getPath(request), () -> {
request.params().clear();
request.params().putAll(originalParams);
return request.params();
});
}
public void registerHandler(RestRequest.Method method, String path, RestHandler handler) {
if (handler instanceof BaseRestHandler) {
usageService.addRestHandler((BaseRestHandler) handler);
}
handlers.insertOrUpdate(path, new MethodHandlers(path, handler, method), (mHandlers, newMHandler) -> {
return mHandlers.addMethods(handler, method);
});
}
ES会通过RestController的registerHandler方法,提前把handler注册到对应http请求方法(GET、PUT、POST、DELETE等)的handlers列表。这样用户请求到达时,就可以通过RestController的getHandler方法,并根据http请求方法和路径取出对应的handler。对于bulk操作,其请求对应的handler是RestBulkAction,该类会在其构造函数中将其注册到RestController,代码如下:
public RestBulkAction(Settings settings, RestController controller) {
super(settings);
controller.registerHandler(POST, "/_bulk", this);
controller.registerHandler(PUT, "/_bulk", this);
controller.registerHandler(POST, "/{index}/_bulk", this);
controller.registerHandler(PUT, "/{index}/_bulk", this);
controller.registerHandler(POST, "/{index}/{type}/_bulk", this);
controller.registerHandler(PUT, "/{index}/{type}/_bulk", this);
this.allowExplicitIndex = MULTI_ALLOW_EXPLICIT_INDEX.get(settings);
}
RestBulkAction会将RestRequest解析并转化为BulkRequest,然后再对BulkRequest做处理,这块的逻辑在prepareRequest方法中,部分代码如下:
public RestChannelConsumer prepareRequest(final RestRequest request, final NodeClient client) throws IOException {
//根据RestRequest构建bulkRequest
......
//处理bulkRequest请求
return channel -> client.bulk(bulkRequest, new RestStatusToXContentListener<>(channel));
}
NodeClient在处理BulkRequest请求时,会将请求的action转化为对应Transport层的action,然后再由Transport层的action来处理BulkRequest,action转化的代码如下:
public < Request extends ActionRequest,
Response extends ActionResponse
> Task executeLocally(GenericAction<Request, Response> action, Request request, TaskListener<Response> listener) {
return transportAction(action).execute(request, listener);
}
private < Request extends ActionRequest,
Response extends ActionResponse
> TransportAction<Request, Response> transportAction(GenericAction<Request, Response> action) {
.....
//actions是个action到transportAction的Map,这个映射关系是在节点启动时初始化的
TransportAction<Request, Response> transportAction = actions.get(action);
......
return transportAction;
}
然后进入TransportAction,TransportAction#execute(Request request, ActionListener listener) -> TransportAction#execute(Task task, Request request, ActionListener listener) -> TransportAction#proceed(Task task, String actionName, Request request, ActionListener listener)。TransportAction会调用一个请求过滤链来处理请求,如果相关的插件定义了对该action的过滤处理,则先会执行插件的处理逻辑,然后再进入TransportAction的处理逻辑,过滤链的处理逻辑如下:
public void proceed(Task task, String actionName, Request request, ActionListener<Response> listener) {
int i = index.getAndIncrement();
try {
if (i < this.action.filters.length) {
//应用插件的逻辑
this.action.filters[i].apply(task, actionName, request, listener, this);
} else if (i == this.action.filters.length) {
//执行TransportAction的逻辑
this.action.doExecute(task, request, listener);
} else {
......
}
} catch(Exception e) {
.....
}
}
对于Bulk请求,这里的TransportAction对应的具体对象是TransportBulkAction的实例,到此,Rest层转化为Transport层的流程完成,下节将详细介绍TransportBulkAction的处理逻辑。
3.2 bulk写入流程
代码入口:TransportBulkAction#doExecute(Task task, BulkRequest bulkRequest, ActionListener listener)。
3.2.1 pipeline预处理
首先判断bulk请求中是否指定了pipeline参数,则先使用相应的pipeline进行处理。如果本节点不具备预处理(Ingest)的资格,则将请求转发到有资格的节点。如果没有Ingest节点则继续往下走。
3.2.2 创建索引
判断是否需要创建索引,即needToChec方法,返回的autoCreateIndex的开关,默认是true,即自动创建索引是打开的;
boolean needToCheck() {
return autoCreateIndex.needToCheck();
}
public static final Setting<AutoCreate> AUTO_CREATE_INDEX_SETTING =
new Setting<>("action.auto_create_index", "true", AutoCreate::new, Property.NodeScope, Setting.Property.Dynamic);
如果自动创建索引已关闭,则直接准备下一步操作:
executeBulk(task, bulkRequest, startTime, listener, responses, emptyMap());
csdn对文章长度有限制吗,没办法拆分成了好几篇博客。