LCOV - code coverage report
Current view: top level - tests/harness - index_utils.cc (source / functions) Hit Total Coverage
Test: Test Coverage for xapian-core c2b6f1024d3a Lines: 80 90 88.9 %
Date: 2019-05-16 09:13:18 Functions: 4 4 100.0 %
Branches: 103 179 57.5 %

           Branch data     Line data    Source code
       1                 :            : /** @file index_utils.cc
       2                 :            :  * @brief utility functions for indexing testcase data
       3                 :            :  */
       4                 :            : /* Copyright (C) 2005,2007,2013 Olly Betts
       5                 :            :  *
       6                 :            :  * This program is free software; you can redistribute it and/or modify
       7                 :            :  * it under the terms of the GNU General Public License as published by
       8                 :            :  * the Free Software Foundation; either version 2 of the License, or
       9                 :            :  * (at your option) any later version.
      10                 :            :  *
      11                 :            :  * This program is distributed in the hope that it will be useful,
      12                 :            :  * but WITHOUT ANY WARRANTY; without even the implied warranty of
      13                 :            :  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
      14                 :            :  * GNU General Public License for more details.
      15                 :            :  *
      16                 :            :  * You should have received a copy of the GNU General Public License
      17                 :            :  * along with this program; if not, write to the Free Software
      18                 :            :  * Foundation, Inc., 51 Franklin St, Fifth Floor, Boston, MA  02110-1301  USA
      19                 :            :  */
      20                 :            : 
      21                 :            : #include <config.h>
      22                 :            : 
      23                 :            : #include "index_utils.h"
      24                 :            : 
      25                 :            : #include "errno_to_string.h"
      26                 :            : #include "stringutils.h"
      27                 :            : 
      28                 :            : #include <algorithm>
      29                 :            : #include <cerrno>
      30                 :            : #include <cstring>
      31                 :            : #include <fstream>
      32                 :            : 
      33                 :            : using namespace std;
      34                 :            : 
      35                 :            : static string munge_term(const string &term);
      36                 :            : 
      37                 :            : /// Read a paragraph from stream @a input.
      38                 :            : static string
      39                 :      38192 : get_paragraph(istream &input)
      40                 :            : {
      41 [ +  - ][ +  - ]:      76384 :     string para, line;
      42                 :            :     while (true) {
      43         [ +  - ]:     327018 :         getline(input, line);
      44 [ +  - ][ +  - ]:     327018 :         if (find_if(line.begin(), line.end(), C_isnotspace) == line.end())
         [ +  - ][ +  - ]
                 [ +  + ]
      45                 :      76384 :             return para;
      46         [ +  - ]:     288826 :         para += line;
      47         [ +  - ]:     288826 :         para += '\n';
      48                 :            :     }
      49                 :            : }
      50                 :            : 
      51                 :            : void
      52                 :       1154 : FileIndexer::index_to(Xapian::WritableDatabase & db)
      53                 :            : {
      54 [ +  - ][ +  - ]:       1154 :     Xapian::Stem stemmer("english");
      55                 :            : 
      56 [ +  + ][ +  - ]:      39346 :     while (file != end || (input.is_open() && !input.eof())) {
         [ +  + ][ +  - ]
         [ +  + ][ +  + ]
      57 [ +  - ][ +  + ]:      38192 :         if (input.eof()) next_file();
                 [ +  - ]
      58                 :            : 
      59         [ +  - ]:      38192 :         Xapian::Document doc;
      60         [ +  - ]:      76384 :         string para = get_paragraph(input);
      61         [ +  - ]:      38192 :         doc.set_data(para);
      62                 :            : 
      63                 :            :         // Value 0 contains all possible character values so we can check that
      64                 :            :         // none of them cause problems.
      65                 :            :         string value0("X\0\0\0 \1\t"
      66                 :            :             "\x00\x01\x02\x03\x04\x05\x06\x07\x08\x09\x0a\x0b\x0c\x0d\x0e\x0f"
      67                 :            :             "\x10\x11\x12\x13\x14\x15\x16\x17\x18\x19\x1a\x1b\x1c\x1d\x1e\x1f"
      68                 :            :             "\x20\x21\x22\x23\x24\x25\x26\x27\x28\x29\x2a\x2b\x2c\x2d\x2e\x2f"
      69                 :            :             "\x30\x31\x32\x33\x34\x35\x36\x37\x38\x39\x3a\x3b\x3c\x3d\x3e\x3f"
      70                 :            :             "\x40\x41\x42\x43\x44\x45\x46\x47\x48\x49\x4a\x4b\x4c\x4d\x4e\x4f"
      71                 :            :             "\x50\x51\x52\x53\x54\x55\x56\x57\x58\x59\x5a\x5b\x5c\x5d\x5e\x5f"
      72                 :            :             "\x60\x61\x62\x63\x64\x65\x66\x67\x68\x69\x6a\x6b\x6c\x6d\x6e\x6f"
      73                 :            :             "\x70\x71\x72\x73\x74\x75\x76\x77\x78\x79\x7a\x7b\x7c\x7d\x7e\x7f"
      74                 :            :             "\x80\x81\x82\x83\x84\x85\x86\x87\x88\x89\x8a\x8b\x8c\x8d\x8e\x8f"
      75                 :            :             "\x90\x91\x92\x93\x94\x95\x96\x97\x98\x99\x9a\x9b\x9c\x9d\x9e\x9f"
      76                 :            :             "\xa0\xa1\xa2\xa3\xa4\xa5\xa6\xa7\xa8\xa9\xaa\xab\xac\xad\xae\xaf"
      77                 :            :             "\xb0\xb1\xb2\xb3\xb4\xb5\xb6\xb7\xb8\xb9\xba\xbb\xbc\xbd\xbe\xbf"
      78                 :            :             "\xc0\xc1\xc2\xc3\xc4\xc5\xc6\xc7\xc8\xc9\xca\xcb\xcc\xcd\xce\xcf"
      79                 :            :             "\xd0\xd1\xd2\xd3\xd4\xd5\xd6\xd7\xd8\xd9\xda\xdb\xdc\xdd\xde\xdf"
      80                 :            :             "\xe0\xe1\xe2\xe3\xe4\xe5\xe6\xe7\xe8\xe9\xea\xeb\xec\xed\xee\xef"
      81                 :            :             "\xf0\xf1\xf2\xf3\xf4\xf5\xf6\xf7\xf8\xf9\xfa\xfb\xfc\xfd\xfe\xff",
      82         [ +  - ]:      76384 :             7 + 256);
      83 [ +  + ][ +  - ]:      38192 :         if (para.size() > 2) value0[0] = para[2];
                 [ +  - ]
      84         [ +  - ]:      38192 :         value0 += para;
      85         [ +  - ]:      38192 :         doc.add_value(0, value0);
      86                 :            : 
      87         [ +  + ]:     374324 :         for (Xapian::valueno i = min(para.length(), size_t(10)); i >= 1; --i) {
      88 [ +  - ][ +  - ]:     336132 :             doc.add_value(i, para.substr(i, 1));
      89                 :            :         }
      90                 :            :         // Value 11 is useful for tests of sorting
      91 [ +  - ][ +  - ]:      38192 :         doc.add_value(11, Xapian::sortable_serialise(para.size()));
      92                 :            : 
      93                 :            :         // Value 12 is useful for tests of collapsing
      94 [ +  - ][ +  - ]:      38192 :         doc.add_value(12, Xapian::sortable_serialise(para.size() % 5));
      95                 :            : 
      96                 :            :         // Value 13 contains the first 3 letters of the paragraph
      97 [ +  - ][ +  - ]:      38192 :         doc.add_value(13, para.substr(0, 3));
      98                 :            : 
      99                 :      38192 :         Xapian::termpos pos = 0;
     100         [ +  - ]:      38192 :         string::const_iterator word_end = para.begin();
     101                 :            :         // Need a const_iterator version of para.end() for find_if.
     102         [ +  - ]:      38192 :         const string::const_iterator para_end = para.end();
     103         [ +  + ]:    2675079 :         while (word_end != para_end) {
     104                 :    2636887 :             string::const_iterator word_start;
     105         [ +  - ]:    2636887 :             word_start = find_if(word_end, para_end, C_isnotspace);
     106         [ +  - ]:    2636887 :             word_end = find_if(word_start, para_end, C_isspace);
     107 [ +  - ][ +  - ]:    2636887 :             string word = stemmer(munge_term(string(word_start, word_end)));
                 [ +  - ]
     108 [ +  + ][ +  - ]:    2636887 :             if (!word.empty()) doc.add_posting(word, ++pos);
     109                 :    2636887 :         }
     110                 :            : 
     111         [ +  - ]:      38192 :         db.add_document(doc);
     112                 :      39346 :     }
     113                 :       1154 : }
     114                 :            : 
     115                 :            : // Strip unwanted characters, force to lower case, and handle \ escapes.
     116                 :            : static string
     117                 :    2636887 : munge_term(const string &term)
     118                 :            : {
     119                 :    2636887 :     string result;
     120         [ +  + ]:   15654146 :     for (string::const_iterator i = term.begin(); i != term.end(); ++i) {
     121                 :   13017259 :         char ch = *i;
     122         [ +  + ]:   13017259 :         if (C_isalnum(ch))
     123         [ +  - ]:   12256372 :             result += C_tolower(ch);
     124         [ +  + ]:     760887 :         else if (ch == '\\') {
     125                 :         56 :             ++i;
     126         [ +  - ]:         56 :             if (i != term.end()) {
     127   [ +  +  +  -  :         56 :                 switch (*i) {
                +  +  - ]
     128                 :          8 :                     case '\\': ch = '\\'; break;
     129                 :          8 :                     case '0': ch = '\0'; break;
     130                 :          8 :                     case 'n': ch = '\n'; break;
     131                 :          0 :                     case 'r': ch = '\r'; break;
     132                 :          8 :                     case 't': ch = '\t'; break;
     133                 :            :                     case 'x': {
     134                 :            :                         // Check we can read the next two characters.
     135         [ -  + ]:         24 :                         if (size_t(i - term.begin()) >= term.size() - 2) {
     136                 :          0 :                             --i;
     137                 :          0 :                             break;
     138                 :            :                         }
     139                 :         24 :                         string::const_iterator j = i;
     140                 :         24 :                         char b = *++i;
     141                 :         24 :                         char c = *++i;
     142 [ +  - ][ -  + ]:         24 :                         if (!C_isxdigit(b) || !C_isxdigit(c)) {
                 [ -  + ]
     143                 :          0 :                             i = j - 1;
     144                 :            :                         } else {
     145                 :         24 :                             ch = (hex_digit(b) << 4) | hex_digit(c);
     146                 :            :                         }
     147                 :         56 :                         break;
     148                 :            :                     }
     149                 :            :                 }
     150                 :            :             }
     151         [ +  - ]:         56 :             result += ch;
     152                 :            :         }
     153                 :            :     }
     154                 :    2636887 :     return result;
     155                 :            : }
     156                 :            : 
     157                 :            : void
     158                 :       1167 : FileIndexer::next_file()
     159                 :            : {
     160 [ +  - ][ +  + ]:       1167 :     if (input.is_open()) {
     161         [ +  - ]:         13 :         input.close();
     162                 :            :         // MSVC doesn't clear fail() on close() and re-open().
     163         [ +  - ]:         13 :         input.clear();
     164                 :            :     }
     165                 :            : 
     166                 :            :     // Find the next non-empty filename.
     167 [ +  + ][ +  + ]:       1585 :     while (file != end && (*file).empty()) {
                 [ +  + ]
     168                 :        418 :         ++file;
     169                 :            :     }
     170         [ +  + ]:       1803 :     if (file == end) return;
     171                 :            : 
     172         [ +  - ]:        636 :     string filename;
     173         [ +  - ]:        636 :     if (!datadir.empty()) {
     174         [ +  - ]:        636 :         filename = datadir;
     175                 :        636 :         bool need_slash = true;
     176         [ +  - ]:        636 :         for (char dir_sep : DIR_SEPS_LIST) {
     177 [ +  - ][ +  - ]:        636 :             if (filename.back() == dir_sep) {
     178                 :        636 :                 need_slash = false;
     179                 :        636 :                 break;
     180                 :            :             }
     181                 :            :         }
     182 [ -  + ][ #  # ]:        636 :         if (need_slash) filename += '/';
     183                 :            :     }
     184         [ +  - ]:        636 :     filename += *file++;
     185         [ +  - ]:        636 :     filename += ".txt";
     186                 :            : 
     187         [ +  - ]:        636 :     input.open(filename.c_str());
     188                 :            :     // Need to check is_open() - just using operator! fails with MSVC.
     189 [ +  - ][ -  + ]:        636 :     if (!input.is_open()) {
     190         [ #  # ]:          0 :         string msg = "Can't read file '";
     191         [ #  # ]:          0 :         msg += filename;
     192         [ #  # ]:          0 :         msg += "' for indexing (";
     193         [ #  # ]:          0 :         errno_to_string(errno, msg);
     194         [ #  # ]:          0 :         msg += ')';
     195                 :          0 :         throw msg;
     196                 :        636 :     }
     197                 :            : }

Generated by: LCOV version 1.11