drm/i915/guc: Force a reset on internal GuC error

author John Harrison <John.C.Harrison@Intel.com>

Wed, 16 Aug 2023 00:39:57 +0000 (17:39 -0700)

committer John Harrison <John.C.Harrison@Intel.com>

Tue, 22 Aug 2023 18:38:47 +0000 (11:38 -0700)
author John Harrison <John.C.Harrison@Intel.com>
Wed, 16 Aug 2023 00:39:57 +0000 (17:39 -0700)
committer John Harrison <John.C.Harrison@Intel.com>
Tue, 22 Aug 2023 18:38:47 +0000 (11:38 -0700)
diff --git a/drivers/gpu/drm/i915/gt/uc/intel_guc.c b/drivers/gpu/drm/i915/gt/uc/intel_guc.c

index 861d0c58388cfcf9e5eb523553b2fd56469a2feb..27df41c53b89046426834c56b31659ceade8fe24 100644 (file)
--- a/drivers/gpu/drm/i915/gt/uc/intel_guc.c
+++ b/drivers/gpu/drm/i915/gt/uc/intel_guc.c
@@ -159,6 +159,21 @@ static void gen11_disable_guc_interrupts(struct intel_guc *guc)
         gen11_reset_guc_interrupts(guc);
  }
  
+static void guc_dead_worker_func(struct work_struct *w)
+{
+       struct intel_guc *guc = container_of(w, struct intel_guc, dead_guc_worker);
+       struct intel_gt *gt = guc_to_gt(guc);
+       unsigned long last = guc->last_dead_guc_jiffies;
+       unsigned long delta = jiffies_to_msecs(jiffies - last);
+
+       if (delta < 500) {
+               intel_gt_set_wedged(gt);
+       } else {
+               intel_gt_handle_error(gt, ALL_ENGINES, I915_ERROR_CAPTURE, "dead GuC");
+               guc->last_dead_guc_jiffies = jiffies;
+       }
+}
+
  void intel_guc_init_early(struct intel_guc *guc)
  {
         struct intel_gt *gt = guc_to_gt(guc);
@@ -171,6 +186,8 @@ void intel_guc_init_early(struct intel_guc *guc)
         intel_guc_slpc_init_early(&guc->slpc);
         intel_guc_rc_init_early(guc);
  
+       INIT_WORK(&guc->dead_guc_worker, guc_dead_worker_func);
+
         mutex_init(&guc->send_mutex);
         spin_lock_init(&guc->irq_lock);
         if (GRAPHICS_VER(i915) >= 11) {
@@ -449,6 +466,8 @@ void intel_guc_fini(struct intel_guc *guc)
         if (!intel_uc_fw_is_loadable(&guc->fw))
                 return;
  
+       flush_work(&guc->dead_guc_worker);
+
         if (intel_guc_slpc_is_used(guc))
                 intel_guc_slpc_fini(&guc->slpc);
  
@@ -573,6 +592,20 @@ out:
         return ret;
  }
  
+int intel_guc_crash_process_msg(struct intel_guc *guc, u32 action)
+{
+       if (action == INTEL_GUC_ACTION_NOTIFY_CRASH_DUMP_POSTED)
+               guc_err(guc, "Crash dump notification\n");
+       else if (action == INTEL_GUC_ACTION_NOTIFY_EXCEPTION)
+               guc_err(guc, "Exception notification\n");
+       else
+               guc_err(guc, "Unknown crash notification: 0x%04X\n", action);
+
+       queue_work(system_unbound_wq, &guc->dead_guc_worker);
+
+       return 0;
+}
+
  int intel_guc_to_host_process_recv_msg(struct intel_guc *guc,
                                        const u32 *payload, u32 len)
  {
@@ -589,6 +622,9 @@ int intel_guc_to_host_process_recv_msg(struct intel_guc *guc,
         if (msg & INTEL_GUC_RECV_MSG_EXCEPTION)
                 guc_err(guc, "Received early exception notification!\n");
  
+       if (msg & (INTEL_GUC_RECV_MSG_CRASH_DUMP_POSTED | INTEL_GUC_RECV_MSG_EXCEPTION))
+               queue_work(system_unbound_wq, &guc->dead_guc_worker);
+
         return 0;
  }
  
@@ -628,6 +664,8 @@ int intel_guc_suspend(struct intel_guc *guc)
                 return 0;
  
         if (intel_guc_submission_is_used(guc)) {
+               flush_work(&guc->dead_guc_worker);
+
                 /*
                  * This H2G MMIO command tears down the GuC in two steps. First it will
                  * generate a G2H CTB for every active context indicating a reset. In
diff --git a/drivers/gpu/drm/i915/gt/uc/intel_guc.h b/drivers/gpu/drm/i915/gt/uc/intel_guc.h

index 8dc291ff00935c132659b4deebb2f493355ee0a1..6c392bad29c1966f42cca3a1496c6983787f3e02 100644 (file)
--- a/drivers/gpu/drm/i915/gt/uc/intel_guc.h
+++ b/drivers/gpu/drm/i915/gt/uc/intel_guc.h
@@ -266,6 +266,20 @@ struct intel_guc {
                 unsigned long last_stat_jiffies;
         } timestamp;
  
+       /**
+        * @dead_guc_worker: Asynchronous worker thread for forcing a GuC reset.
+        * Specifically used when the G2H handler wants to issue a reset. Resets
+        * require flushing the G2H queue. So, the G2H processing itself must not
+        * trigger a reset directly. Instead, go via this worker.
+        */
+       struct work_struct dead_guc_worker;
+       /**
+        * @last_dead_guc_jiffies: timestamp of previous 'dead guc' occurrance
+        * used to prevent a fundamentally broken system from continuously
+        * reloading the GuC.
+        */
+       unsigned long last_dead_guc_jiffies;
+
  #ifdef CONFIG_DRM_I915_SELFTEST
         /**
          * @number_guc_id_stolen: The number of guc_ids that have been stolen
@@ -476,6 +490,7 @@ int intel_guc_engine_failure_process_msg(struct intel_guc *guc,
                                          const u32 *msg, u32 len);
  int intel_guc_error_capture_process_msg(struct intel_guc *guc,
                                         const u32 *msg, u32 len);
+int intel_guc_crash_process_msg(struct intel_guc *guc, u32 action);
  
  struct intel_engine_cs *
  intel_guc_lookup_engine(struct intel_guc *guc, u8 guc_class, u8 instance);
diff --git a/drivers/gpu/drm/i915/gt/uc/intel_guc_ct.c b/drivers/gpu/drm/i915/gt/uc/intel_guc_ct.c

index 97eadd08181d614a9f62d462c0c37ee2d5df411e..6e22af31513a5b338041359f7953fbf88838225c 100644 (file)
--- a/drivers/gpu/drm/i915/gt/uc/intel_guc_ct.c
+++ b/drivers/gpu/drm/i915/gt/uc/intel_guc_ct.c
@@ -1112,12 +1112,8 @@ static int ct_process_request(struct intel_guc_ct *ct, struct ct_incoming_msg *r
                 ret = 0;
                 break;
         case INTEL_GUC_ACTION_NOTIFY_CRASH_DUMP_POSTED:
-               CT_ERROR(ct, "Received GuC crash dump notification!\n");
-               ret = 0;
-               break;
         case INTEL_GUC_ACTION_NOTIFY_EXCEPTION:
-               CT_ERROR(ct, "Received GuC exception notification!\n");
-               ret = 0;
+               ret = intel_guc_crash_process_msg(guc, action);
                 break;
         default:
                 ret = -EOPNOTSUPP;
author	John Harrison <John.C.Harrison@Intel.com>
	Wed, 16 Aug 2023 00:39:57 +0000 (17:39 -0700)
committer	John Harrison <John.C.Harrison@Intel.com>
	Tue, 22 Aug 2023 18:38:47 +0000 (11:38 -0700)
drivers/gpu/drm/i915/gt/uc/intel_guc.c		patch \| blob \| history
drivers/gpu/drm/i915/gt/uc/intel_guc.h		patch \| blob \| history
drivers/gpu/drm/i915/gt/uc/intel_guc_ct.c		patch \| blob \| history