Improve TotalWords counter func
authorBjørn Erik Pedersen <bjorn.erik.pedersen@gmail.com>
Wed, 17 Aug 2016 04:37:19 +0000 (06:37 +0200)
committerBjørn Erik Pedersen <bjorn.erik.pedersen@gmail.com>
Wed, 14 Sep 2016 08:50:56 +0000 (10:50 +0200)
It is obviously more efficient when we do not care about the actual words.

```
BenchmarkTotalWords-4            100000         18795 ns/op           0 B/op           0 allocs/op
BenchmarkTotalWordsOld-4          30000         46751 ns/op        6400 B/op           1 allocs/op
```

helpers/content.go
helpers/content_test.go
hugolib/page.go

index bb78191754847c6f457bffdc0a405b8c3c0a15c6..9d35675f75c1bbbe2c68353253287a655e56535c 100644 (file)
@@ -384,8 +384,25 @@ func RenderBytes(ctx *RenderingContext) []byte {
        }
 }
 
-// TotalWords returns an int of the total number of words in a given content.
+// TotalWords counts instance of one or more consecutive white space
+// characters, as defined by unicode.IsSpace, in s.
+// This is a cheaper way of word counting than the obvious len(strings.Fields(s)).
 func TotalWords(s string) int {
+       n := 0
+       inWord := false
+       for _, r := range s {
+               wasInWord := inWord
+               inWord = !unicode.IsSpace(r)
+               if inWord && !wasInWord {
+                       n++
+               }
+       }
+       return n
+}
+
+// Old implementation only kept for benchmark comparison.
+// TODO(bep) remove
+func totalWordsOld(s string) int {
        return len(strings.Fields(s))
 }
 
index 5165a7a260e082bde98e1040daa127d9deaf4b84..82af70f8fe8d7a1ad6f47c76e68edc2c3d5dabd5 100644 (file)
@@ -408,12 +408,45 @@ func TestExtractNoTOC(t *testing.T) {
        }
 }
 
+var totalWordsBenchmarkString = strings.Repeat("Hugo Rocks ", 200)
+
 func TestTotalWords(t *testing.T) {
-       testString := "Two, Words!"
-       actualWordCount := TotalWords(testString)
 
-       if actualWordCount != 2 {
-               t.Errorf("Actual word count (%d) for test string (%s) did not match 2.", actualWordCount, testString)
+       for i, this := range []struct {
+               s     string
+               words int
+       }{
+               {"Two, Words!", 2},
+               {"Word", 1},
+               {"", 0},
+               {"One, Two,      Three", 3},
+               {totalWordsBenchmarkString, 400},
+       } {
+               actualWordCount := TotalWords(this.s)
+
+               if actualWordCount != this.words {
+                       t.Errorf("[%d] Actual word count (%d) for test string (%s) did not match %d", i, actualWordCount, this.s, this.words)
+               }
+       }
+}
+
+func BenchmarkTotalWords(b *testing.B) {
+       b.ResetTimer()
+       for i := 0; i < b.N; i++ {
+               wordCount := TotalWords(totalWordsBenchmarkString)
+               if wordCount != 400 {
+                       b.Fatal("Wordcount error")
+               }
+       }
+}
+
+func BenchmarkTotalWordsOld(b *testing.B) {
+       b.ResetTimer()
+       for i := 0; i < b.N; i++ {
+               wordCount := totalWordsOld(totalWordsBenchmarkString)
+               if wordCount != 400 {
+                       b.Fatal("Wordcount error")
+               }
        }
 }
 
index 0784f5bf8111f7f54a7a7a56aa817dc23de27a4f..66d099bc0a67fbb80661a5ed5b90839ec275065a 100644 (file)
@@ -486,10 +486,6 @@ func (p *Page) ReadFrom(buf io.Reader) (int64, error) {
 }
 
 func (p *Page) analyzePage() {
-       // TODO(bep)
-       if true {
-               return
-       }
        if p.isCJKLanguage {
                p.WordCount = 0
                for _, word := range p.PlainWords() {