LCOV - code coverage report
Current view: top level - queryparser - cjk-tokenizer.h (source / functions) Hit Total Coverage
Test: Test Coverage for xapian-core 954b5873a738 Lines: 16 16 100.0 %
Date: 2019-06-30 05:20:33 Functions: 9 9 100.0 %
Branches: 5 8 62.5 %

           Branch data     Line data    Source code
       1                 :            : /** @file cjk-tokenizer.h
       2                 :            :  * @brief Tokenise CJK text as n-grams
       3                 :            :  */
       4                 :            : /* Copyright (c) 2007, 2008 Yung-chung Lin (henearkrxern@gmail.com)
       5                 :            :  * Copyright (c) 2011 Richard Boulton (richard@tartarus.org)
       6                 :            :  * Copyright (c) 2011 Brandon Schaefer (brandontschaefer@gmail.com)
       7                 :            :  * Copyright (c) 2011,2018,2019 Olly Betts
       8                 :            :  *
       9                 :            :  * Permission is hereby granted, free of charge, to any person obtaining a copy
      10                 :            :  * of this software and associated documentation files (the "Software"), to deal
      11                 :            :  * deal in the Software without restriction, including without limitation the
      12                 :            :  * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or
      13                 :            :  * sell copies of the Software, and to permit persons to whom the Software is
      14                 :            :  * furnished to do so, subject to the following conditions:
      15                 :            :  *
      16                 :            :  * The above copyright notice and this permission notice shall be included in
      17                 :            :  * all copies or substantial portions of the Software.
      18                 :            :  *
      19                 :            :  * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
      20                 :            :  * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
      21                 :            :  * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
      22                 :            :  * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
      23                 :            :  * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING
      24                 :            :  * FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS
      25                 :            :  * IN THE SOFTWARE.
      26                 :            :  */
      27                 :            : 
      28                 :            : #ifndef XAPIAN_INCLUDED_CJK_TOKENIZER_H
      29                 :            : #define XAPIAN_INCLUDED_CJK_TOKENIZER_H
      30                 :            : 
      31                 :            : #ifndef PACKAGE
      32                 :            : # error config.h must be included first in each C++ source file
      33                 :            : #endif
      34                 :            : 
      35                 :            : #include "xapian/unicode.h"
      36                 :            : 
      37                 :            : #include <string>
      38                 :            : 
      39                 :            : #ifdef USE_ICU
      40                 :            : # ifdef __GNUC__
      41                 :            : // Turn off some warnings for libicu headers.
      42                 :            : #  pragma GCC diagnostic push
      43                 :            : #  pragma GCC diagnostic ignored "-Wold-style-cast"
      44                 :            : #  pragma GCC diagnostic ignored "-Wundef"
      45                 :            : # endif
      46                 :            : 
      47                 :            : # include <unicode/brkiter.h>
      48                 :            : # include <unicode/unistr.h>
      49                 :            : 
      50                 :            : # ifdef __GNUC__
      51                 :            : // Restore the original warning state.
      52                 :            : #  pragma GCC diagnostic pop
      53                 :            : # endif
      54                 :            : #endif
      55                 :            : 
      56                 :            : namespace CJK {
      57                 :            : 
      58                 :            : /** Should we use the CJK n-gram code?
      59                 :            :  *
      60                 :            :  *  The first time this is called it reads the environment variable
      61                 :            :  *  XAPIAN_CJK_NGRAM and returns true if it is set to a non-empty value.
      62                 :            :  *  Subsequent calls cache and return the same value.
      63                 :            :  */
      64                 :            : bool is_cjk_enabled();
      65                 :            : 
      66                 :            : bool codepoint_is_cjk(unsigned codepoint);
      67                 :            : 
      68                 :            : bool codepoint_is_cjk_wordchar(unsigned codepoint);
      69                 :            : 
      70                 :            : size_t get_cjk(Xapian::Utf8Iterator& it);
      71                 :            : 
      72                 :            : }
      73                 :            : 
      74                 :            : /// Iterator returning unigrams and bigrams.
      75                 :       1394 : class CJKNgramIterator {
      76                 :            :     Xapian::Utf8Iterator it;
      77                 :            : 
      78                 :            :     /** Offset to penultimate Unicode character in current_token.
      79                 :            :      *
      80                 :            :      *  If current_token has one Unicode character, this is 0.
      81                 :            :      */
      82                 :            :     unsigned offset = 0;
      83                 :            : 
      84                 :            :     std::string current_token;
      85                 :            : 
      86                 :            :     /// Call to set current_token at the start.
      87                 :            :     void init();
      88                 :            : 
      89                 :            :   public:
      90                 :         64 :     explicit CJKNgramIterator(const std::string& s) : it(s) {
      91         [ +  - ]:         32 :         init();
      92                 :         32 :     }
      93                 :            : 
      94                 :         58 :     explicit CJKNgramIterator(const Xapian::Utf8Iterator& it_) : it(it_) {
      95         [ +  - ]:         29 :         init();
      96                 :         29 :     }
      97                 :            : 
      98                 :       1272 :     CJKNgramIterator() { }
      99                 :            : 
     100                 :        575 :     const std::string& operator*() const {
     101                 :        575 :         return current_token;
     102                 :            :     }
     103                 :            : 
     104                 :            :     CJKNgramIterator& operator++();
     105                 :            : 
     106                 :            :     /// Is this a unigram?
     107                 :        902 :     bool unigram() const { return offset == 0; }
     108                 :            : 
     109                 :        960 :     const Xapian::Utf8Iterator& get_utf8iterator() const { return it; }
     110                 :            : 
     111                 :        636 :     bool operator==(const CJKNgramIterator& other) const {
     112                 :            :         // We only really care about comparisons where one or other is an end
     113                 :            :         // iterator.
     114 [ +  + ][ +  - ]:        636 :         return current_token.empty() && other.current_token.empty();
     115                 :            :     }
     116                 :            : 
     117                 :        636 :     bool operator!=(const CJKNgramIterator& other) const {
     118                 :        636 :         return !(*this == other);
     119                 :            :     }
     120                 :            : };
     121                 :            : 
     122                 :            : #ifdef USE_ICU
     123                 :            : class CJKWordIterator {
     124                 :            :     std::string current_token;
     125                 :            : 
     126                 :            :     int32_t p;
     127                 :            : 
     128                 :            :     const char* utf8_ptr;
     129                 :            : 
     130                 :            :     // copy UBRK_DONE to avoid GCC old-style cast error
     131                 :            : #pragma GCC diagnostic push
     132                 :            : #pragma GCC diagnostic ignored "-Wold-style-cast"
     133                 :            :     static const int32_t done = UBRK_DONE;
     134                 :            : #pragma GCC diagnostic pop
     135                 :            : 
     136                 :            :     icu::BreakIterator *brk;
     137                 :            : 
     138                 :            :   public:
     139                 :            :     CJKWordIterator(const char* ptr, size_t len);
     140                 :            : 
     141                 :            :     explicit CJKWordIterator(const std::string &s)
     142                 :            :         : CJKWordIterator(s.data(), s.size()) { }
     143                 :            : 
     144                 :            :     CJKWordIterator()
     145                 :            :         : p(done), brk(NULL) { }
     146                 :            : 
     147                 :            :     ~CJKWordIterator() { delete brk; }
     148                 :            : 
     149                 :            :     const std::string& operator*() const {
     150                 :            :         return current_token;
     151                 :            :     }
     152                 :            : 
     153                 :            :     CJKWordIterator & operator++();
     154                 :            : 
     155                 :            :     bool operator==(const CJKWordIterator & other) const {
     156                 :            :         return p == other.p;
     157                 :            :     }
     158                 :            : 
     159                 :            :     bool operator!=(const CJKWordIterator & other) const {
     160                 :            :         return !(*this == other);
     161                 :            :     }
     162                 :            : };
     163                 :            : #endif
     164                 :            : 
     165                 :            : #endif // XAPIAN_INCLUDED_CJK_TOKENIZER_H

Generated by: LCOV version 1.11