进程文件句柄数超过1024,使用select函数越界

问题场景

场景:客户的配置todb回库多实例时,启动服务时或者执行初始化时有较大的概率出现core,core内容如下

排查过程

1. 经分析排查(zhouds发现):对象指针被改了,怀疑肯定是哪里存在越界导致内存被踩到

2. 使用内存检测工具valgrind运行todb插件获取core日志

valgrind --log-file=todb_val.log --tool=memcheck --leak-check=full --show-leak-kinds=all --trace-children=yes xxxxx -f todb_demo.xml -start todbsvr -t ar -s 0 -database demo -local_mode 1

经daiyh发现实际上出core应该发生在todb_work_thread.cpp:714行代码

3. 分析CTodbWorkThread::IsReadyToSync()代码,因为select的方式最多支持监听1024个句柄,怀疑两个地方

怀疑点1:FD_SET(m_iRedoFd, &fds) 可能出现越界;

怀疑点2:select()如果出现信号触发,可能存在越界;

select.h头文件见下图:(参考:深入解析为何select最多只能监听1024个

4. 再次分析core,可以验证所有的core里面的 m_iRedoFd都超出1024:

     

5. 在测试环境下模拟出现core的场景:

      5.1 模拟前查看当前环境配置下,m_iRedoFd的值,可以看到当前环境下m_iRedoFd=38:

5.2 在todb的构造函数中打开多个句柄,构造句柄超出1024的情况:

5.3 启动后验证是否出现类似core

实际情况:程序启动时出现core,并且通过守护进程不断拉起和再次core如下:

查看Core的内容:可以看到,core的内容和用户环境的core极其类似

6. 进一步分析core的原因

6.1 使用gdb启动todb回库插件

6.2 设置watch观察this指针

6.3 验证 怀疑点1 : 第一次被FD_SET出this指针没有被修改

关于why:因为this指针实际上存储在寄存器中,所以此处即便内存被破坏了,this指针仍然还能用,如下图,watch   &this 时提示如下:

6.4 触发watch:

6.5 继续往下走回到CTodbWorkThread::Run()

可以看到在743行,即CTodbWorkThread::IsReadyToSync()退出的时候,this指针被修改。

个人推测:

        1. 当程序在CTodbWorkThread::IsReadyToSync()函数内时,使用的一直是寄存器中的this指针,所以此时即便堆栈数据被破坏,仍然不影响当前函数的使用。

        2. 在CTodbWorkThread::IsReadyToSync()退出时,此时寄存器重新加载this指针,而此时加载到的this指针实际上被破坏了。

        3. 退回CTodbWorkThread::Run()函数时,函数在读m_bStop的成员变量时,因为this指针错误,导致读取失败和出core。

6.6 调试失败的core,可以看到出core确实出在todb_work_thread.cpp::266行,即6.5中分析到的读取m_bStop的位置。

结论

  • 底层原因: fd_set最多只能支持1024个句柄,如果超出1024,FD_SET和select()不会检测越界
  • 根本原因:CTodbWorkThread::IsReadyToSync()使用select()函数,且没处理好文件句柄超出1024的情况,导致堆栈被破坏
  • 直接原因:todb使用多实例,导致进程文件句柄超出1024,触发程序中的缺陷
  • 解决方案:建议使用epoll替换select()

其他学习:select的fd超过1024将会非常危险------FD_SET导致core dump

FD_SET 的实现:

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
可以使用Windows的性能计数器API来获取某个进程打开的文件数。 首先,需要使用`PdhOpenQuery`函数创建一个查询对象。然后,使用`PdhAddCounter`函数将要查询的计数器添加到查询对象中。计数器的路径格式为`\Process(<进程名或进程ID>)\Handle Count`。最后,使用`PdhCollectQueryData`函数收集计数器数据,并使用`PdhGetFormattedCounterValue`函数获取计数器值。 以下是一个示例代码: ```c++ #include <pdh.h> #include <iostream> #include <string> #pragma comment(lib, "pdh.lib") int main() { PDH_STATUS status; HQUERY query; HCOUNTER counter; // 创建查询对象 status = PdhOpenQuery(nullptr, 0, &query); if (status != ERROR_SUCCESS) { std::cerr << "PdhOpenQuery failed with error code " << status << std::endl; return 1; } // 添加计数器 std::string processName = "notepad.exe"; // 要查询的进程名 status = PdhAddCounter(query, ("\\Process(" + processName + ")\\Handle Count").c_str(), 0, &counter); if (status != ERROR_SUCCESS) { std::cerr << "PdhAddCounter failed with error code " << status << std::endl; return 1; } // 收集计数器数据 status = PdhCollectQueryData(query); if (status != ERROR_SUCCESS) { std::cerr << "PdhCollectQueryData failed with error code " << status << std::endl; return 1; } // 获取计数器值 PDH_FMT_COUNTERVALUE value; status = PdhGetFormattedCounterValue(counter, PDH_FMT_LONG, nullptr, &value); if (status != ERROR_SUCCESS) { std::cerr << "PdhGetFormattedCounterValue failed with error code " << status << std::endl; return 1; } std::cout << "Handle Count: " << value.longValue << std::endl; // 关闭查询对象 PdhCloseQuery(query); return 0; } ``` 其中,`PDH_STATUS`和`HCOUNTER`等类型需要包含`pdh.h`头文件。`PdhAddCounter`函数的第一个参数为查询对象,第二个参数为计数器路径,第三个参数为保留值,第四个参数为计数器句。`PdhGetFormattedCounterValue`函数的第一个参数为计数器句,第二个参数为计数器值的格式,第三个参数为字符串格式化模板(可选),第四个参数为计数器值结构体。在使用完性能计数器后,需要使用`PdhCloseQuery`函数关闭查询对象。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值