LCOV - code coverage report
Current view: top level - api - enquire.cc (source / functions) Hit Total Coverage
Test: Test Coverage for xapian-core c2b6f1024d3a Lines: 182 193 94.3 %
Date: 2019-05-16 09:13:18 Functions: 37 38 97.4 %
Branches: 117 182 64.3 %

           Branch data     Line data    Source code
       1                 :            : /** @file enquire.cc
       2                 :            :  * @brief Xapian::Enquire class
       3                 :            :  */
       4                 :            : /* Copyright (C) 2009,2017 Olly Betts
       5                 :            :  *
       6                 :            :  * This program is free software; you can redistribute it and/or modify
       7                 :            :  * it under the terms of the GNU General Public License as published by
       8                 :            :  * the Free Software Foundation; either version 2 of the License, or
       9                 :            :  * (at your option) any later version.
      10                 :            :  *
      11                 :            :  * This program is distributed in the hope that it will be useful,
      12                 :            :  * but WITHOUT ANY WARRANTY; without even the implied warranty of
      13                 :            :  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
      14                 :            :  * GNU General Public License for more details.
      15                 :            :  *
      16                 :            :  * You should have received a copy of the GNU General Public License
      17                 :            :  * along with this program; if not, write to the Free Software
      18                 :            :  * Foundation, Inc., 51 Franklin St, Fifth Floor, Boston, MA  02110-1301 USA
      19                 :            :  */
      20                 :            : 
      21                 :            : #include <config.h>
      22                 :            : 
      23                 :            : #include "xapian/enquire.h"
      24                 :            : #include "enquireinternal.h"
      25                 :            : 
      26                 :            : #include "expand/esetinternal.h"
      27                 :            : #include "expand/expandweight.h"
      28                 :            : #include "matcher/matcher.h"
      29                 :            : #include "msetinternal.h"
      30                 :            : #include "vectortermlist.h"
      31                 :            : #include "weight/weightinternal.h"
      32                 :            : #include "xapian/database.h"
      33                 :            : #include "xapian/error.h"
      34                 :            : #include "xapian/expanddecider.h"
      35                 :            : #include "xapian/intrusive_ptr.h"
      36                 :            : #include "xapian/keymaker.h"
      37                 :            : #include "xapian/matchspy.h"
      38                 :            : #include "xapian/query.h"
      39                 :            : #include "xapian/rset.h"
      40                 :            : #include "xapian/weight.h"
      41                 :            : 
      42                 :            : #include <memory>
      43                 :            : #include <string>
      44                 :            : #include <vector>
      45                 :            : 
      46                 :            : using namespace std;
      47                 :            : 
      48                 :            : [[noreturn]]
      49                 :            : static void
      50                 :          7 : throw_invalid_arg(const char* msg) {
      51 [ +  - ][ +  - ]:          7 :     throw Xapian::InvalidArgumentError(msg);
                 [ +  - ]
      52                 :            : }
      53                 :            : 
      54                 :            : namespace Xapian {
      55                 :            : 
      56                 :            : Enquire::Enquire(const Enquire&) = default;
      57                 :            : 
      58                 :            : Enquire&
      59                 :            : Enquire::operator=(const Enquire&) = default;
      60                 :            : 
      61                 :            : Enquire::Enquire(Enquire&&) = default;
      62                 :            : 
      63                 :            : Enquire&
      64                 :            : Enquire::operator=(Enquire&&) = default;
      65                 :            : 
      66         [ +  - ]:      20560 : Enquire::Enquire(const Database& db) : internal(new Enquire::Internal(db)) {}
      67                 :            : 
      68                 :      41124 : Enquire::~Enquire() {}
      69                 :            : 
      70                 :            : void
      71                 :      25121 : Enquire::set_query(const Query& query, termcount query_length)
      72                 :            : {
      73                 :      25121 :     internal->query = query;
      74                 :      25121 :     internal->query_length = query_length;
      75                 :      25121 : }
      76                 :            : 
      77                 :            : const Query&
      78                 :          7 : Enquire::get_query() const
      79                 :            : {
      80                 :          7 :     return internal->query;
      81                 :            : }
      82                 :            : 
      83                 :            : void
      84                 :       1735 : Enquire::set_weighting_scheme(const Weight& weight)
      85                 :            : {
      86                 :       1735 :     internal->weight.reset(weight.clone());
      87                 :       1735 : }
      88                 :            : 
      89                 :            : void
      90                 :        137 : Enquire::set_docid_order(docid_order order)
      91                 :            : {
      92                 :        137 :     internal->order = order;
      93                 :        137 : }
      94                 :            : 
      95                 :            : void
      96                 :         26 : Enquire::set_sort_by_relevance()
      97                 :            : {
      98                 :         26 :     internal->sort_by = Internal::REL;
      99                 :         26 : }
     100                 :            : 
     101                 :            : void
     102                 :        210 : Enquire::set_sort_by_value(valueno sort_key, bool reverse)
     103                 :            : {
     104                 :        210 :     internal->sort_by = Internal::VAL;
     105                 :        210 :     internal->sort_functor = NULL;
     106                 :        210 :     internal->sort_key = sort_key;
     107                 :        210 :     internal->sort_val_reverse = reverse;
     108                 :        210 : }
     109                 :            : 
     110                 :            : void
     111                 :        118 : Enquire::set_sort_by_key(KeyMaker* sorter, bool reverse)
     112                 :            : {
     113         [ -  + ]:        118 :     if (sorter == NULL) {
     114                 :          0 :         throw_invalid_arg("Enquire::set_sort_by_key(): sorter cannot be NULL");
     115                 :            :     }
     116                 :        118 :     internal->sort_by = Internal::VAL;
     117                 :        118 :     internal->sort_functor = sorter;
     118                 :        118 :     internal->sort_val_reverse = reverse;
     119                 :        118 : }
     120                 :            : 
     121                 :            : void
     122                 :         94 : Enquire::set_sort_by_value_then_relevance(valueno sort_key, bool reverse)
     123                 :            : {
     124                 :         94 :     internal->sort_by = Internal::VAL_REL;
     125                 :         94 :     internal->sort_functor = NULL;
     126                 :         94 :     internal->sort_key = sort_key;
     127                 :         94 :     internal->sort_val_reverse = reverse;
     128                 :         94 : }
     129                 :            : 
     130                 :            : void
     131                 :         14 : Enquire::set_sort_by_key_then_relevance(KeyMaker* sorter, bool reverse)
     132                 :            : {
     133         [ -  + ]:         14 :     if (sorter == NULL) {
     134                 :            :         throw_invalid_arg("Enquire::set_sort_by_key_then_relevance(): "
     135                 :          0 :                           "sorter cannot be NULL");
     136                 :            :     }
     137                 :         14 :     internal->sort_by = Internal::VAL_REL;
     138                 :         14 :     internal->sort_functor = sorter;
     139                 :         14 :     internal->sort_val_reverse = reverse;
     140                 :         14 : }
     141                 :            : 
     142                 :            : void
     143                 :         75 : Enquire::set_sort_by_relevance_then_value(valueno sort_key, bool reverse)
     144                 :            : {
     145                 :         75 :     internal->sort_by = Internal::REL_VAL;
     146                 :         75 :     internal->sort_functor = NULL;
     147                 :         75 :     internal->sort_key = sort_key;
     148                 :         75 :     internal->sort_val_reverse = reverse;
     149                 :         75 : }
     150                 :            : 
     151                 :            : void
     152                 :          7 : Enquire::set_sort_by_relevance_then_key(KeyMaker* sorter, bool reverse)
     153                 :            : {
     154         [ -  + ]:          7 :     if (sorter == NULL) {
     155                 :            :         throw_invalid_arg("Enquire::set_sort_by_relevance_then_key(): "
     156                 :          0 :                           "sorter cannot be NULL");
     157                 :            :     }
     158                 :          7 :     internal->sort_by = Internal::REL_VAL;
     159                 :          7 :     internal->sort_functor = sorter;
     160                 :          7 :     internal->sort_val_reverse = reverse;
     161                 :          7 : }
     162                 :            : 
     163                 :            : void
     164                 :      17806 : Enquire::set_collapse_key(valueno collapse_key, doccount collapse_max)
     165                 :            : {
     166                 :      17806 :     internal->collapse_key = collapse_key;
     167                 :      17806 :     internal->collapse_max = collapse_max;
     168                 :      17806 : }
     169                 :            : 
     170                 :            : void
     171                 :      17220 : Enquire::set_cutoff(int percent_threshold, double weight_threshold)
     172                 :            : {
     173                 :      17220 :     internal->percent_threshold = percent_threshold;
     174                 :      17220 :     internal->weight_threshold = weight_threshold;
     175                 :      17220 : }
     176                 :            : 
     177                 :            : void
     178                 :         81 : Enquire::add_matchspy(MatchSpy* spy)
     179                 :            : {
     180                 :            :     using Xapian::Internal::opt_intrusive_ptr;
     181         [ -  + ]:         81 :     if (spy == NULL)
     182                 :          0 :         throw_invalid_arg("Enquire::add_matchspy(): spy cannot be NULL");
     183         [ +  - ]:         81 :     internal->matchspies.push_back(opt_intrusive_ptr<MatchSpy>(spy));
     184                 :         81 : }
     185                 :            : 
     186                 :            : void
     187                 :          0 : Enquire::clear_matchspies()
     188                 :            : {
     189                 :          0 :     internal->matchspies.clear();
     190                 :          0 : }
     191                 :            : 
     192                 :            : void
     193                 :          3 : Enquire::set_time_limit(double time_limit)
     194                 :            : {
     195                 :          3 :     internal->time_limit = time_limit;
     196                 :          3 : }
     197                 :            : 
     198                 :            : MSet
     199                 :     159410 : Enquire::get_mset(doccount first,
     200                 :            :                   doccount maxitems,
     201                 :            :                   doccount checkatleast,
     202                 :            :                   const RSet* rset,
     203                 :            :                   const MatchDecider* mdecider) const
     204                 :            : {
     205                 :     159410 :     return internal->get_mset(first, maxitems, checkatleast, rset, mdecider);
     206                 :            : }
     207                 :            : 
     208                 :            : TermIterator
     209                 :         93 : Enquire::get_matching_terms_begin(docid did) const
     210                 :            : {
     211                 :         93 :     return internal->get_matching_terms_begin(did);
     212                 :            : }
     213                 :            : 
     214                 :            : void
     215                 :         35 : Enquire::set_expansion_scheme(const std::string &eweightname, double expand_k) const
     216                 :            : {
     217         [ +  + ]:         35 :     if (eweightname == "bo1") {
     218                 :          7 :         internal->eweight = Enquire::Internal::EXPAND_BO1;
     219         [ +  + ]:         28 :     } else if (eweightname == "trad") {
     220                 :         21 :         internal->eweight = Enquire::Internal::EXPAND_TRAD;
     221                 :            :     } else {
     222                 :            :         throw_invalid_arg("Enquire::set_expansion_scheme(): eweightname must "
     223                 :          7 :                           "be 'bo1' or 'trad'");
     224                 :            :     }
     225                 :         28 :     internal->expand_k = expand_k;
     226                 :         28 : }
     227                 :            : 
     228                 :            : ESet
     229                 :        221 : Enquire::get_eset(termcount maxitems,
     230                 :            :                   const RSet& rset,
     231                 :            :                   int flags,
     232                 :            :                   const ExpandDecider* edecider,
     233                 :            :                   double min_weight) const
     234                 :            : {
     235                 :        221 :     return internal->get_eset(maxitems, rset, flags, edecider, min_weight);
     236                 :            : }
     237                 :            : 
     238                 :            : std::string
     239                 :          5 : Enquire::get_description() const
     240                 :            : {
     241         [ +  - ]:          5 :     string desc = "Enquire(db=";
     242 [ +  - ][ +  - ]:          5 :     desc += internal->db.get_description();
     243         [ -  + ]:          5 :     if (!internal->query.empty()) {
     244         [ #  # ]:          0 :         desc += ", query=";
     245 [ #  # ][ #  # ]:          0 :         desc += internal->query.get_description();
     246                 :            :     }
     247         [ +  - ]:          5 :     desc += ')';
     248                 :          5 :     return desc;
     249                 :            : }
     250                 :            : 
     251                 :      20560 : Enquire::Internal::Internal(const Database& db_)
     252                 :      20560 :     : db(db_) {}
     253                 :            : 
     254                 :            : MSet
     255                 :     159410 : Enquire::Internal::get_mset(doccount first,
     256                 :            :                             doccount maxitems,
     257                 :            :                             doccount checkatleast,
     258                 :            :                             const RSet* rset,
     259                 :            :                             const MatchDecider* mdecider) const
     260                 :            : {
     261         [ +  + ]:     159410 :     if (query.empty()) {
     262         [ +  - ]:       9663 :         MSet mset;
     263                 :       9663 :         mset.internal->set_first(first);
     264         [ +  - ]:       9663 :         return mset;
     265                 :            :     }
     266                 :            : 
     267 [ +  + ][ +  + ]:     149747 :     if (percent_threshold && (sort_by == VAL || sort_by == VAL_REL)) {
                 [ +  + ]
     268                 :            :         throw Xapian::UnimplementedError("Use of a percentage cutoff while "
     269                 :            :                                          "sorting primary by value isn't "
     270 [ +  - ][ +  - ]:         28 :                                          "currently supported");
                 [ +  - ]
     271                 :            :     }
     272                 :            : 
     273                 :            :     // Lazily initialise weight to its default if necessary.
     274         [ +  + ]:     149719 :     if (!weight.get())
     275         [ +  - ]:      10870 :         weight.reset(new BM25Weight);
     276                 :            : 
     277                 :            :     // Lazily initialise query_length if it wasn't explicitly specified.
     278         [ +  + ]:     149719 :     if (query_length == 0) {
     279                 :      15463 :         query_length = query.get_length();
     280                 :            :     }
     281                 :            : 
     282                 :     149719 :     Xapian::doccount first_orig = first;
     283                 :            :     {
     284         [ +  - ]:     149719 :         Xapian::doccount docs = db.get_doccount();
     285                 :     149719 :         first = min(first, docs);
     286                 :     149719 :         maxitems = min(maxitems, docs - first);
     287                 :     149719 :         checkatleast = min(checkatleast, docs);
     288                 :     149719 :         checkatleast = max(checkatleast, first + maxitems);
     289                 :            :     }
     290                 :            : 
     291 [ +  - ][ +  - ]:     149719 :     unique_ptr<Xapian::Weight::Internal> stats(new Xapian::Weight::Internal);
     292                 :            :     ::Matcher match(db,
     293                 :            :                     query,
     294                 :            :                     query_length,
     295                 :            :                     rset,
     296                 :     149719 :                     *stats,
     297                 :     149719 :                     *weight,
     298                 :     149719 :                     (sort_functor.get() != NULL),
     299                 :            :                     (mdecider != NULL),
     300                 :            :                     collapse_key,
     301                 :            :                     collapse_max,
     302                 :            :                     percent_threshold,
     303                 :            :                     weight_threshold,
     304                 :            :                     order,
     305                 :            :                     sort_key,
     306                 :            :                     sort_by,
     307                 :            :                     sort_val_reverse,
     308                 :            :                     time_limit,
     309         [ +  + ]:     299427 :                     matchspies);
     310                 :            : 
     311                 :            :     MSet mset = match.get_mset(first,
     312                 :            :                                maxitems,
     313                 :            :                                checkatleast,
     314                 :     149708 :                                *stats,
     315                 :     149708 :                                *weight,
     316                 :            :                                mdecider,
     317                 :     149708 :                                sort_functor.get(),
     318                 :            :                                collapse_key,
     319                 :            :                                collapse_max,
     320                 :            :                                percent_threshold,
     321                 :            :                                weight_threshold,
     322                 :            :                                order,
     323                 :            :                                sort_key,
     324                 :            :                                sort_by,
     325                 :            :                                sort_val_reverse,
     326                 :            :                                time_limit,
     327         [ +  + ]:     299364 :                                matchspies);
     328                 :            : 
     329 [ +  + ][ +  - ]:     149656 :     if (first_orig != first && mset.internal.get()) {
                 [ +  + ]
     330                 :         10 :         mset.internal->set_first(first_orig);
     331                 :            :     }
     332                 :            : 
     333         [ +  - ]:     149656 :     mset.internal->set_enquire(this);
     334                 :            : 
     335         [ +  + ]:     149656 :     if (!mset.internal->get_stats()) {
     336                 :     139310 :         mset.internal->set_stats(stats.release());
     337                 :            :     }
     338                 :            : 
     339         [ +  - ]:     309038 :     return mset;
     340                 :            : }
     341                 :            : 
     342                 :            : TermIterator
     343                 :         93 : Enquire::Internal::get_matching_terms_begin(docid did) const
     344                 :            : {
     345         [ +  + ]:         93 :     if (query.empty())
     346                 :          7 :         return TermIterator();
     347                 :            : 
     348                 :       4490 :     struct term_and_pos {
     349                 :            :         string term;
     350                 :            :         Xapian::termpos pos;
     351                 :            : 
     352                 :        344 :         term_and_pos(const string& term_, Xapian::termpos pos_)
     353                 :        344 :             : term(term_), pos(pos_) {}
     354                 :            :     };
     355                 :            : 
     356                 :         86 :     vector<term_and_pos> query_terms;
     357                 :         86 :     Xapian::termpos pos = 1;
     358 [ +  - ][ +  - ]:        430 :     for (auto t = query.get_terms_begin(); t != query.get_terms_end(); ++t) {
                 [ +  + ]
     359 [ +  - ][ +  - ]:        344 :         query_terms.emplace_back(*t, pos++);
     360                 :         86 :     }
     361                 :            : 
     362         [ -  + ]:         86 :     if (query_terms.empty())
     363                 :          0 :         return TermIterator();
     364                 :            : 
     365                 :            :     // Reorder by term, secondary sort by position.
     366                 :            :     sort(query_terms.begin(), query_terms.end(),
     367                 :        537 :          [](const term_and_pos& a, const term_and_pos& b) {
     368                 :        537 :              int cmp = a.term.compare(b.term);
     369         [ +  + ]:        537 :              return cmp ? cmp < 0 : a.pos < b.pos;
     370         [ +  - ]:         86 :          });
     371                 :            : 
     372                 :            :     // Loop through the query terms, skipping the document terms for each to
     373                 :            :     // see which match, and shuffling down the matching ones.  Also discard
     374                 :            :     // repeats, keeping the smallest position.
     375                 :         86 :     size_t i = 0, j = 0;
     376         [ +  - ]:        172 :     auto t = db.termlist_begin(did);
     377         [ +  + ]:        344 :     do {
     378                 :        344 :         const string& term = query_terms[i].term;
     379 [ +  + ][ +  - ]:        344 :         if (j == 0 || term != query_terms[j - 1].term) {
         [ +  + ][ +  + ]
     380         [ +  - ]:        337 :             t.skip_to(term);
     381         [ -  + ]:        337 :             if (t == db.termlist_end(did)) {
     382                 :          0 :                 break;
     383                 :            :             }
     384                 :            : 
     385 [ +  - ][ +  + ]:        337 :             if (*t == term) {
     386                 :            :                 // Matched, so move down if necessary.
     387         [ +  + ]:        217 :                 if (i != j)
     388         [ +  - ]:        134 :                     query_terms[j] = std::move(query_terms[i]);
     389                 :        217 :                 ++j;
     390                 :            :             }
     391                 :            :         }
     392                 :        344 :     } while (++i != query_terms.size());
     393                 :            : 
     394                 :            :     // Truncate to leave just the matching terms.
     395         [ +  - ]:         86 :     query_terms.erase(query_terms.begin() + j, query_terms.end());
     396                 :            : 
     397                 :            :     // Reorder by ascending query position.
     398                 :            :     sort(query_terms.begin(), query_terms.end(),
     399                 :        283 :          [](const term_and_pos& a, const term_and_pos& b) {
     400                 :        283 :              return a.pos < b.pos;
     401         [ +  - ]:        369 :          });
     402                 :            : 
     403                 :            :     // Iterator adaptor to present query_terms as a container of just strings.
     404                 :            :     struct Itor {
     405                 :            :         vector<term_and_pos>::const_iterator it;
     406                 :            : 
     407                 :            :         explicit
     408                 :        172 :         Itor(vector<term_and_pos>::const_iterator it_) : it(it_) {}
     409                 :            : 
     410                 :        434 :         const std::string& operator*() const {
     411                 :        434 :             return it->term;
     412                 :            :         }
     413                 :            : 
     414                 :        434 :         Itor& operator++() {
     415                 :        434 :             ++it;
     416                 :        434 :             return *this;
     417                 :            :         }
     418                 :            : 
     419                 :            :         Itor operator++(int) {
     420                 :            :             Itor retval = *this;
     421                 :            :             ++it;
     422                 :            :             return retval;
     423                 :            :         }
     424                 :            : 
     425                 :       1212 :         bool operator!=(const Itor& o) { return it != o.it; }
     426                 :            :     };
     427                 :            : 
     428                 :            :     return TermIterator(new VectorTermList(Itor(query_terms.cbegin()),
     429 [ +  - ][ +  - ]:        179 :                                            Itor(query_terms.cend())));
                 [ +  - ]
     430                 :            : }
     431                 :            : 
     432                 :            : ESet
     433                 :        221 : Enquire::Internal::get_eset(termcount maxitems,
     434                 :            :                             const RSet& rset,
     435                 :            :                             int flags,
     436                 :            :                             const ExpandDecider* edecider_,
     437                 :            :                             double min_weight) const
     438                 :            : {
     439                 :            :     using Xapian::Internal::opt_intrusive_ptr;
     440                 :        221 :     opt_intrusive_ptr<const ExpandDecider> edecider(edecider_);
     441                 :            : 
     442         [ +  - ]:        221 :     Xapian::ESet eset;
     443                 :            : 
     444 [ +  + ][ +  - ]:        221 :     if (maxitems == 0 || rset.empty()) {
         [ -  + ][ +  + ]
     445                 :            :         // Either we were asked for no results, or wouldn't produce any
     446                 :            :         // because no documents were marked as relevant.
     447                 :          7 :         return eset;
     448                 :            :     }
     449                 :            : 
     450                 :            :     // Excluding query terms is a no-op without a query.
     451 [ +  + ][ +  + ]:        214 :     if ((flags & Enquire::INCLUDE_QUERY_TERMS) == 0 && !query.empty()) {
                 [ +  + ]
     452                 :            :         auto edft = new ExpandDeciderFilterTerms(query.get_terms_begin(),
     453 [ +  - ][ +  - ]:        105 :                                                  query.get_terms_end());
                 [ +  - ]
     454         [ +  + ]:        105 :         if (edecider.get() == NULL) {
     455         [ +  - ]:         91 :             edecider = edft->release();
     456                 :            :         } else {
     457                 :            :             // Make sure ExpandDeciderFilterTerms doesn't leak if new throws.
     458                 :         14 :             opt_intrusive_ptr<const ExpandDecider> ptr(edft->release());
     459                 :            :             edecider = (new ExpandDeciderAnd(ptr.get(),
     460 [ +  - ][ +  - ]:        105 :                                              edecider.get()))->release();
                 [ +  - ]
     461                 :            :         }
     462                 :            :     }
     463                 :            : 
     464                 :        214 :     bool use_exact_termfreq = flags & Enquire::USE_EXACT_TERMFREQ;
     465         [ +  + ]:        214 :     if (eweight == Enquire::Internal::EXPAND_BO1) {
     466                 :            :         using Xapian::Internal::Bo1EWeight;
     467 [ +  - ][ +  - ]:          7 :         Bo1EWeight bo1eweight(db, rset.size(), use_exact_termfreq);
     468                 :            :         eset.internal->expand(maxitems, db, rset, edecider.get(), bo1eweight,
     469         [ +  - ]:          7 :                               min_weight);
     470                 :            :     } else {
     471                 :            :         AssertEq(eweight, Enquire::Internal::EXPAND_TRAD);
     472                 :            :         using Xapian::Internal::TradEWeight;
     473 [ +  - ][ +  - ]:        207 :         TradEWeight tradeweight(db, rset.size(), use_exact_termfreq, expand_k);
     474                 :            :         eset.internal->expand(maxitems, db, rset, edecider.get(), tradeweight,
     475         [ +  - ]:        207 :                               min_weight);
     476                 :            :     }
     477                 :            : 
     478                 :        221 :     return eset;
     479                 :            : }
     480                 :            : 
     481                 :            : }

Generated by: LCOV version 1.11