arm64: Better optimised memchr()

author Robin Murphy <robin.murphy@arm.com>

Thu, 27 May 2021 15:34:47 +0000 (16:34 +0100)

committer Will Deacon <will@kernel.org>

Tue, 1 Jun 2021 17:34:38 +0000 (18:34 +0100)
author Robin Murphy <robin.murphy@arm.com>
Thu, 27 May 2021 15:34:47 +0000 (16:34 +0100)
committer Will Deacon <will@kernel.org>
Tue, 1 Jun 2021 17:34:38 +0000 (18:34 +0100)
diff --git a/arch/arm64/lib/memchr.S b/arch/arm64/lib/memchr.S

index edf6b970a2774374ad79a828eaefd645cf7d2f1e..7c2276fdab543231568751b44c732faf0fa007fd 100644 (file)
--- a/arch/arm64/lib/memchr.S
+++ b/arch/arm64/lib/memchr.S
@@ -1,9 +1,6 @@
  /* SPDX-License-Identifier: GPL-2.0-only */
  /*
- * Based on arch/arm/lib/memchr.S
- *
- * Copyright (C) 1995-2000 Russell King
- * Copyright (C) 2013 ARM Ltd.
+ * Copyright (C) 2021 Arm Ltd.
   */
  
  #include <linux/linkage.h>
@@ -19,16 +16,60 @@
   * Returns:
   *     x0 - address of first occurrence of 'c' or 0
   */
+
+#define L(label) .L ## label
+
+#define REP8_01 0x0101010101010101
+#define REP8_7f 0x7f7f7f7f7f7f7f7f
+
+#define srcin          x0
+#define chrin          w1
+#define cntin          x2
+
+#define result         x0
+
+#define wordcnt                x3
+#define rep01          x4
+#define repchr         x5
+#define cur_word       x6
+#define cur_byte       w6
+#define tmp            x7
+#define tmp2           x8
+
+       .p2align 4
+       nop
  SYM_FUNC_START_WEAK_PI(memchr)
-       and     w1, w1, #0xff
-1:     subs    x2, x2, #1
-       b.mi    2f
-       ldrb    w3, [x0], #1
-       cmp     w3, w1
-       b.ne    1b
-       sub     x0, x0, #1
+       and     chrin, chrin, #0xff
+       lsr     wordcnt, cntin, #3
+       cbz     wordcnt, L(byte_loop)
+       mov     rep01, #REP8_01
+       mul     repchr, x1, rep01
+       and     cntin, cntin, #7
+L(word_loop):
+       ldr     cur_word, [srcin], #8
+       sub     wordcnt, wordcnt, #1
+       eor     cur_word, cur_word, repchr
+       sub     tmp, cur_word, rep01
+       orr     tmp2, cur_word, #REP8_7f
+       bics    tmp, tmp, tmp2
+       b.ne    L(found_word)
+       cbnz    wordcnt, L(word_loop)
+L(byte_loop):
+       cbz     cntin, L(not_found)
+       ldrb    cur_byte, [srcin], #1
+       sub     cntin, cntin, #1
+       cmp     cur_byte, chrin
+       b.ne    L(byte_loop)
+       sub     srcin, srcin, #1
+       ret
+L(found_word):
+CPU_LE(        rev     tmp, tmp)
+       clz     tmp, tmp
+       sub     tmp, tmp, #64
+       add     result, srcin, tmp, asr #3
         ret
-2:     mov     x0, #0
+L(not_found):
+       mov     result, #0
         ret
  SYM_FUNC_END_PI(memchr)
  EXPORT_SYMBOL_NOKASAN(memchr)
author	Robin Murphy <robin.murphy@arm.com>
	Thu, 27 May 2021 15:34:47 +0000 (16:34 +0100)
committer	Will Deacon <will@kernel.org>
	Tue, 1 Jun 2021 17:34:38 +0000 (18:34 +0100)