Merge branch 'topic/kdump-hotplug' into next
authorMichael Ellerman <mpe@ellerman.id.au>
Mon, 13 May 2024 13:12:08 +0000 (23:12 +1000)
committerMichael Ellerman <mpe@ellerman.id.au>
Mon, 13 May 2024 13:12:08 +0000 (23:12 +1000)
commite789d4499abdb488dd9cabce4f95c74dac6bcbe5
tree86b6c4d7810bcbd2b19a23e332eca0e38ca9df7b
parent6d4e52f899d9d54cae31ad9b4584aa9504a9cfa1
parent9803af291162dbca4b9773586a3f5c392f0dd974
Merge branch 'topic/kdump-hotplug' into next

Merge our topic branch containing kdump hotplug changes, more detail from the
original cover letter:

Commit 247262756121 ("crash: add generic infrastructure for crash
hotplug support") added a generic infrastructure that allows
architectures to selectively update the kdump image component during CPU
or memory add/remove events within the kernel itself.

This patch series adds crash hotplug handler for PowerPC and enable
support to update the kdump image on CPU/Memory add/remove events.

Among the 6 patches in this series, the first two patches make changes
to the generic crash hotplug handler to assist PowerPC in adding support
for this feature. The last four patches add support for this feature.

The following section outlines the problem addressed by this patch
series, along with the current solution, its shortcomings, and the
proposed resolution.

Problem:
========
Due to CPU/Memory hotplug or online/offline events the elfcorehdr
(which describes the CPUs and memory of the crashed kernel) and FDT
(Flattened Device Tree) of kdump image becomes outdated. Consequently,
attempting dump collection with an outdated elfcorehdr or FDT can lead
to failed or inaccurate dump collection.

Going forward CPU hotplug or online/offline events are referred as
CPU/Memory add/remove events.

Existing solution and its shortcoming:
======================================
The current solution to address the above issue involves monitoring the
CPU/memory add/remove events in userspace using udev rules and whenever
there are changes in CPU and memory resources, the entire kdump image
is loaded again. The kdump image includes kernel, initrd, elfcorehdr,
FDT, purgatory. Given that only elfcorehdr and FDT get outdated due to
CPU/Memory add/remove events, reloading the entire kdump image is
inefficient. More importantly, kdump remains inactive for a substantial
amount of time until the kdump reload completes.

Proposed solution:
==================
Instead of initiating a full kdump image reload from userspace on
CPU/Memory hotplug and online/offline events, the proposed solution aims
to update only the necessary kdump image component within the kernel
itself.