标签: 线上问题

一次线上OOM问题排查

一、问题

一个查询服务 jvm 偶现oom，容器异常退出，过会儿自动重新拉起进程，容器不变
二、时间线
20210308 怀疑是cpu飙升导致
观察cpu出现飙升，通过 top 命令查到进程 pid 通过 top -H -p , 看到下图

耗cpu的线程都为GC线程，排除是cpu飙升的原因

20210311 复现oom 分析dump文件
本想通过sz 将dump文件拉到本地，但太费劲了，dump文件为16G, 即使分段也十分费劲，询问基础架构同学，提供了公司的dump文件分析工具 jifa
jifa 一个可以快速将dump文件快速上传到云端，且在远端使用MAT进行解析的工具，非常好使
将dump文件上传到S3云端，再根据返回的链接，直接跳转到jifa 平台，默认弹出刚才文件从S3导入的选择，选择导入，即会从S3导入到公司 jifa 平台。
选择对应机器的dump文件，进行在线分析，加载后即可得到线上MAT分析结果
从Dominator Tree中可看到有一个线程占用了96%的内存，且是线程中的一个ArrayList 占用着几乎这96%内存，点开发现全是 DotVO实体