#define __HAVE_ARCH_MEMSET
 extern void * memset(void *, int, __kernel_size_t);
 
+#define __HAVE_ARCH_MEMSET32
+extern void *__memset32(uint32_t *, uint32_t v, __kernel_size_t);
+static inline void *memset32(uint32_t *p, uint32_t v, __kernel_size_t n)
+{
+       return __memset32(p, v, n * 4);
+}
+
+#define __HAVE_ARCH_MEMSET64
+extern void *__memset64(uint64_t *, uint32_t low, __kernel_size_t, uint32_t hi);
+static inline void *memset64(uint64_t *p, uint64_t v, __kernel_size_t n)
+{
+       return __memset64(p, v, n * 8, v >> 32);
+}
+
 extern void __memzero(void *ptr, __kernel_size_t n);
 
 #define memset(p,v,n)                                                  \
 
 1:     orr     r1, r1, r1, lsl #8
        orr     r1, r1, r1, lsl #16
        mov     r3, r1
-       cmp     r2, #16
+7:     cmp     r2, #16
        blt     4f
 
 #if ! CALGN(1)+0
 UNWIND( .fnstart            )
 UNWIND( .save {r8, lr}      )
        mov     r8, r1
-       mov     lr, r1
+       mov     lr, r3
 
 2:     subs    r2, r2, #64
        stmgeia ip!, {r1, r3, r8, lr}   @ 64 bytes at a time.
 UNWIND( .fnstart               )
 UNWIND( .save {r4-r8, lr}      )
        mov     r4, r1
-       mov     r5, r1
+       mov     r5, r3
        mov     r6, r1
-       mov     r7, r1
+       mov     r7, r3
        mov     r8, r1
-       mov     lr, r1
+       mov     lr, r3
 
        cmp     r2, #96
        tstgt   ip, #31
        tst     r2, #4
        strne   r1, [ip], #4
 /*
- * When we get here, we've got less than 4 bytes to zero.  We
+ * When we get here, we've got less than 4 bytes to set.  We
  * may have an unaligned pointer as well.
  */
 5:     tst     r2, #2
 UNWIND( .fnend   )
 ENDPROC(memset)
 ENDPROC(mmioset)
+
+ENTRY(__memset32)
+UNWIND( .fnstart         )
+       mov     r3, r1                  @ copy r1 to r3 and fall into memset64
+UNWIND( .fnend   )
+ENDPROC(__memset32)
+ENTRY(__memset64)
+UNWIND( .fnstart         )
+       mov     ip, r0                  @ preserve r0 as return value
+       b       7b                      @ jump into the middle of memset
+UNWIND( .fnend   )
+ENDPROC(__memset64)