return !!(READ_ONCE(lock->val) & _Q_TAIL_CPU_MASK);
 }
 
+static __always_inline u32 queued_spin_encode_locked_val(void)
+{
+       /* XXX: make this use lock value in paca like simple spinlocks? */
+       return _Q_LOCKED_VAL | (smp_processor_id() << _Q_OWNER_CPU_OFFSET);
+}
+
 static __always_inline int queued_spin_trylock(struct qspinlock *lock)
 {
+       u32 new = queued_spin_encode_locked_val();
        u32 prev;
 
        asm volatile(
 "\t"   PPC_ACQUIRE_BARRIER "                                           \n"
 "2:                                                                    \n"
        : "=&r" (prev)
-       : "r" (&lock->val), "r" (_Q_LOCKED_VAL),
+       : "r" (&lock->val), "r" (new),
          "i" (IS_ENABLED(CONFIG_PPC64))
        : "cr0", "memory");
 
 
 static __always_inline int __queued_spin_trylock_steal(struct qspinlock *lock)
 {
+       u32 new = queued_spin_encode_locked_val();
        u32 prev, tmp;
 
        /* Trylock may get ahead of queued nodes if it finds unlocked */
 "\t"   PPC_ACQUIRE_BARRIER "                                           \n"
 "2:                                                                    \n"
        : "=&r" (prev), "=&r" (tmp)
-       : "r" (&lock->val), "r" (_Q_LOCKED_VAL), "r" (_Q_TAIL_CPU_MASK),
+       : "r" (&lock->val), "r" (new), "r" (_Q_TAIL_CPU_MASK),
          "i" (IS_ENABLED(CONFIG_PPC64))
        : "cr0", "memory");
 
 
  * Bitfields in the lock word:
  *
  *     0: locked bit
- *  1-15: unused bits
+ *  1-14: lock holder cpu
+ *    15: unused bit
  *    16: must queue bit
  * 17-31: tail cpu (+1)
  */
 #define _Q_LOCKED_BITS         1
 #define _Q_LOCKED_VAL          (1U << _Q_LOCKED_OFFSET)
 
+/* 0x00007ffe */
+#define _Q_OWNER_CPU_OFFSET    1
+#define _Q_OWNER_CPU_BITS      14
+#define _Q_OWNER_CPU_MASK      _Q_SET_MASK(OWNER_CPU)
+
+#if CONFIG_NR_CPUS > (1U << _Q_OWNER_CPU_BITS)
+#error "qspinlock does not support such large CONFIG_NR_CPUS"
+#endif
+
 /* 0x00010000 */
 #define _Q_MUST_Q_OFFSET       16
 #define _Q_MUST_Q_BITS         1