(没有查到根本原因)
背景
服务运行中,发现服务器频繁不定时重启。发现是kernel crash造成的。
查看 /var/crash/ 下的log,发现BUG: unable to handle kernel paging request at xxxxxxx
分析vmcore
环境
- crash工具
- 崩溃转储文件(vmcore)
- 发生崩溃的内核映像文件(vmlinux),包含调试内核所需调试信息
需要安装:kernel-debuginfo kernel-debuginfo-common
| |
安装完成后,在/lib/debug/lib/modules找到vmlinux内核映像文件
vmcore-dmesg.txt

vmcore
| |

执行 bt

执行 sym

nvidia-smi 查看显卡信息
nvidia-smi gpu fan 显示 error

nvidia-smi -q

