x86/mm: Print likely CPU at segfault time
authorRik van Riel <riel@surriel.com>
Fri, 5 Aug 2022 14:16:44 +0000 (10:16 -0400)
committerBorislav Petkov <bp@suse.de>
Wed, 24 Aug 2022 10:48:05 +0000 (12:48 +0200)
In a large enough fleet of computers, it is common to have a few bad CPUs.
Those can often be identified by seeing that some commonly run kernel code,
which runs fine everywhere else, keeps crashing on the same CPU core on one
particular bad system.

However, the failure modes in CPUs that have gone bad over the years are
often oddly specific, and the only bad behavior seen might be segfaults
in programs like bash, python, or various system daemons that run fine
everywhere else.

Add a printk() to show_signal_msg() to print the CPU, core, and socket
at segfault time.

This is not perfect, since the task might get rescheduled on another
CPU between when the fault hit, and when the message is printed, but in
practice this has been good enough to help people identify several bad
CPU cores.

For example:

  segfault[1349]: segfault at 0 ip 000000000040113a sp 00007ffc6d32e360 error 4 in \
  segfault[401000+1000] likely on CPU 0 (core 0, socket 0)

This printk can be controlled through /proc/sys/debug/exception-trace.

  [ bp: Massage a bit, add "likely" to the printed line to denote that
    the CPU number is not always reliable. ]

Signed-off-by: Rik van Riel <riel@surriel.com>
Signed-off-by: Borislav Petkov <bp@suse.de>
Link: https://lore.kernel.org/r/20220805101644.2e674553@imladris.surriel.com
arch/x86/mm/fault.c

index fa71a5d12e872df8c2ce68049d6d58163c435388..a498ae1fbe665e3707721f92b73b71eca0396945 100644 (file)
@@ -769,6 +769,8 @@ show_signal_msg(struct pt_regs *regs, unsigned long error_code,
                unsigned long address, struct task_struct *tsk)
 {
        const char *loglvl = task_pid_nr(tsk) > 1 ? KERN_INFO : KERN_EMERG;
+       /* This is a racy snapshot, but it's better than nothing. */
+       int cpu = raw_smp_processor_id();
 
        if (!unhandled_signal(tsk, SIGSEGV))
                return;
@@ -782,6 +784,14 @@ show_signal_msg(struct pt_regs *regs, unsigned long error_code,
 
        print_vma_addr(KERN_CONT " in ", regs->ip);
 
+       /*
+        * Dump the likely CPU where the fatal segfault happened.
+        * This can help identify faulty hardware.
+        */
+       printk(KERN_CONT " likely on CPU %d (core %d, socket %d)", cpu,
+              topology_core_id(cpu), topology_physical_package_id(cpu));
+
+
        printk(KERN_CONT "\n");
 
        show_opcodes(regs, loglvl);