SkyWalking高频采集泄漏线程导致CPU满载排查思路

type

status

date

slug

summary

契机

⚙

最近在消除线上服务告警，发现Java线上测试服经常CPU满载告警，以前都是重启解决，今天好好研究下，打arthas火焰图发现是SkyWalking-agent的线程采集任务一直在吃cpu，jstack一看发现有1w+线程，故使用JProfiler好好排查了下，终于定位到了线程泄漏的原因。

收集线上信息

用JProfiler分析hprof

可以看到此时确实有1w2的存活线程

右键thread，查看是谁持有的thread，发现都是ThreadPoolExecutor基础线程池

同样去查看ThreadPoolExecutor的引用，此时发现差不到是谁声明的ThreadPoolExecutor，线索也就断了

分析jstack线程转储

使用jstack导出的txt，或者JProfiler的线程转储，信息都一样，发现都不能定位到线程/线程池是哪里来的，但是通过比较发现：线程命名太过于规范pool-367-thread-7，并且后缀不超过10，那么代表一定是我们显示的创建的ThreadPoolExecutor，并且制定了线程数=10。随后在代码中搜索线程池创建：ThreadPoolExecutor，newFixedThreadPool。发现确实有很多地方在声明，但是无法定位到具体代码