这些都是在实践中踩过雷的,今天某应用再次踩雷,把遇到的几个雷都收集一下,给后来者参考。
1.即使是accept事件,没有真正的read和write,Channel也要关闭,否则unix domain socket会被泄漏(WINDOWS更可怕),因为NIO的每个
Channel上都有两个FD用来监听事件(接收和发送走不同的FD)。
2.cancel事件导致CPU占用100%,http://bugs.sun.com/bugdatabase/view_bug.do?bug_id=6403933
其原因就是调用key.cancel()时底层在下一次seelect前并没有真正的取消。导致等待select事件返回却又没有返回我们注册的key.这个事件不断地
循环触发,CPU一直处理返回 key为0的select()调用。解决方法有两种,一是在key.cancel()后立即selectNow();但是如果是多线程并发操作,有
可能这两行语句中间线程被切换,使得key.cancel()后没有立即执行 selectNow().这在多Selector情况下是可能的。另一种就是jetty处理方式,如果
select()返回0且连续几次出现这样的情况(有事件触发返回,却不是返回我们注册的KEY),就将有效的key重新注册到一个新的selector上。其实
glassfish在处理多次次次次write返回为0的情况时也是这种策略。
示例代码:(真实的项目中)
- int selectTimeout = connectionConfig.getSelectTimeout();
- int allProcessMaxTime = connectionConfig.getAllProcessMaxTime();
- //selector在实现时有bug,epool底层可能会发送一个错误的信号导致select方法提前返回,但没有
- //返回注册的事件,而且不断循环造成CPU100%
- int slelectZeroCount = 0;
- int maxZeroCount = 20;
- int fixed = 0;
- while (selector.isOpen() && selector.keys().size() != 0 && allProcessMaxTime > 0) {
- long start = System.currentTimeMillis();
- // 查询看是否有已经准备好的通道,指定超时时间
- int count = selector.select(selectTimeout);
- if (count == 0) {
- slelectZeroCount++;
- } else {
- slelectZeroCount = 0;
- //保证是连续的count==0时才将slelectZeroCount++,如果其中有一次返回注册事件测已经正常
- }
- if (slelectZeroCount > maxZeroCount && fixed == 0) {
- //没有尝试修复动作,则先进行修复干预
- for (SelectionKey key : selector.keys()) {
- if (key.isValid() && key.interestOps() == 0) {
- key.cancel();
- }
- }
- fixed = 1;
- } else if (slelectZeroCount > maxZeroCount && fixed == 1) {
- //如果已经干预过仍然连续返回0,注意如果不返回0的话slelectZeroCount就被置0.
- //重新获取一个selector,将当前事件重新注册到新的selector上。并销毁当前selector
- Selector newSelector = this.getSelector();
- this.changeSelector(selector, newSelector);
- selector = newSelector;
- }
- //对channel进行正常处理
重新注册的代码:
- private synchronized void changeSelector(Selector oldSelector, Selector newSelector) {
- for (SelectionKey key : oldSelector.keys()) {
- if (!key.isValid() || key.interestOps() == 0) {
- continue;
- }
- Object att = key.attachment();
- try {
- if (att == null) {
- key.channel().register(newSelector, key.interestOps());
- } else {
- key.channel().register(newSelector, key.interestOps(), att);
- }
- } catch (ClosedChannelException e) {
- SocketChannel sc = (SocketChannel) key.channel();
- sc.close();
- }
- }
- try {
- oldSelector.close();
- } catch (IOException e) {
- logger.error(e.getMessage());
- }
- }
同样对于网络状态不好时,连续写操作返回0的处理:
- private void flushData(Selector selector, SocketChannel socketChannel, ByteBuffer byteBuffer)
- throws IOException {
- int count = 0;
- int maxCount = 20;
- while (byteBuffer.hasRemaining()) {
- int len = socketChannel.write(byteBuffer);
- if (len < 0) {
- throw new EOFException("write channel is closed.");
- }
- // 如果不对len==0(即当前网络不可用)的情况处理,则while(byteBuffer.hasRemaining())可能一直
- // 循环下去而消耗大量的CPU.
- if (len == 0) {
- count++;
- } else {
- count = 0;
- }
- if (count > maxCount) {
- throw new IOException("can't connect to target.");
- }
- }
- }