documentation: Slow systems can stall RCU grace periods
authorPaul E. McKenney <paulmck@linux.vnet.ibm.com>
Thu, 10 Aug 2017 21:33:17 +0000 (14:33 -0700)
committerPaul E. McKenney <paulmck@linux.vnet.ibm.com>
Mon, 9 Oct 2017 21:23:36 +0000 (14:23 -0700)
If a fast system has a worst-case grace-period duration of (say) ten
seconds, then running the same workload on a system ten times as slow
will get you an RCU CPU stall warning given default stall-warning
timeout settings.  This commit therefore adds this possibility to
stallwarn.txt.

Reported-by: Daniel Lezcano <daniel.lezcano@linaro.org>
Signed-off-by: Paul E. McKenney <paulmck@linux.vnet.ibm.com>
Documentation/RCU/stallwarn.txt

index 21b8913acbdfc405461caa5cb14b89c05991000c..238acbd9491709f0ac2aa24ee7c1ebe23a3b4c4c 100644 (file)
@@ -70,6 +70,12 @@ o    A periodic interrupt whose handler takes longer than the time
        considerably longer than normal, which can in turn result in
        RCU CPU stall warnings.
 
+o      Testing a workload on a fast system, tuning the stall-warning
+       timeout down to just barely avoid RCU CPU stall warnings, and then
+       running the same workload with the same stall-warning timeout on a
+       slow system.  Note that thermal throttling and on-demand governors
+       can cause a single system to be sometimes fast and sometimes slow!
+
 o      A hardware or software issue shuts off the scheduler-clock
        interrupt on a CPU that is not in dyntick-idle mode.  This
        problem really has happened, and seems to be most likely to