LCOV - code coverage report
Current view: top level - matcher - maxpostlist.cc (source / functions) Hit Total Coverage
Test: Test Coverage for xapian-core 954b5873a738 Lines: 64 131 48.9 %
Date: 2019-06-30 05:20:33 Functions: 10 14 71.4 %
Branches: 46 118 39.0 %

           Branch data     Line data    Source code
       1                 :            : /** @file maxpostlist.cc
       2                 :            :  * @brief N-way OR postlist with wt=max(wt_i)
       3                 :            :  */
       4                 :            : /* Copyright (C) 2007,2009,2010,2011,2012,2013,2014,2017 Olly Betts
       5                 :            :  * Copyright (C) 2009 Lemur Consulting Ltd
       6                 :            :  *
       7                 :            :  * This program is free software; you can redistribute it and/or
       8                 :            :  * modify it under the terms of the GNU General Public License as
       9                 :            :  * published by the Free Software Foundation; either version 2 of the
      10                 :            :  * License, or (at your option) any later version.
      11                 :            :  *
      12                 :            :  * This program is distributed in the hope that it will be useful,
      13                 :            :  * but WITHOUT ANY WARRANTY; without even the implied warranty of
      14                 :            :  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
      15                 :            :  * GNU General Public License for more details.
      16                 :            :  *
      17                 :            :  * You should have received a copy of the GNU General Public License
      18                 :            :  * along with this program; if not, write to the Free Software
      19                 :            :  * Foundation, Inc., 51 Franklin St, Fifth Floor, Boston, MA  02110-1301 USA
      20                 :            :  */
      21                 :            : 
      22                 :            : #include <config.h>
      23                 :            : 
      24                 :            : #include "maxpostlist.h"
      25                 :            : 
      26                 :            : #include "debuglog.h"
      27                 :            : #include "omassert.h"
      28                 :            : 
      29                 :            : using namespace std;
      30                 :            : 
      31                 :         24 : MaxPostList::~MaxPostList()
      32                 :            : {
      33         [ +  - ]:          8 :     if (plist) {
      34         [ -  + ]:          8 :         for (size_t i = 0; i < n_kids; ++i) {
      35         [ #  # ]:          0 :             delete plist[i];
      36                 :            :         }
      37         [ +  - ]:          8 :         delete [] plist;
      38                 :            :     }
      39         [ -  + ]:         16 : }
      40                 :            : 
      41                 :            : Xapian::doccount
      42                 :          8 : MaxPostList::get_termfreq_min() const
      43                 :            : {
      44         [ +  - ]:          8 :     Xapian::doccount res = plist[0]->get_termfreq_min();
      45         [ +  + ]:         16 :     for (size_t i = 1; i < n_kids; ++i) {
      46 [ +  - ][ +  - ]:          8 :         res = max(res, plist[i]->get_termfreq_min());
      47                 :            :     }
      48                 :          8 :     return res;
      49                 :            : }
      50                 :            : 
      51                 :            : Xapian::doccount
      52                 :          8 : MaxPostList::get_termfreq_max() const
      53                 :            : {
      54                 :          8 :     Xapian::doccount res = plist[0]->get_termfreq_max();
      55         [ +  + ]:         16 :     for (size_t i = 1; i < n_kids; ++i) {
      56                 :          8 :         Xapian::doccount c = plist[i]->get_termfreq_max();
      57         [ -  + ]:          8 :         if (db_size - res <= c)
      58                 :          0 :             return db_size;
      59                 :          8 :         res += c;
      60                 :            :     }
      61                 :          8 :     return res;
      62                 :            : }
      63                 :            : 
      64                 :            : Xapian::doccount
      65                 :          8 : MaxPostList::get_termfreq_est() const
      66                 :            : {
      67         [ -  + ]:          8 :     if (rare(db_size == 0))
      68                 :          0 :         return 0;
      69                 :            : 
      70                 :            :     // We calculate the estimate assuming independence.  The simplest
      71                 :            :     // way to calculate this seems to be a series of (n_kids - 1) pairwise
      72                 :            :     // calculations, which gives the same answer regardless of the order.
      73                 :          8 :     double scale = 1.0 / db_size;
      74                 :          8 :     double P_est = plist[0]->get_termfreq_est() * scale;
      75         [ +  + ]:         16 :     for (size_t i = 1; i < n_kids; ++i) {
      76                 :          8 :         double P_i = plist[i]->get_termfreq_est() * scale;
      77                 :          8 :         P_est += P_i - P_est * P_i;
      78                 :            :     }
      79                 :          8 :     return static_cast<Xapian::doccount>(P_est * db_size + 0.5);
      80                 :            : }
      81                 :            : 
      82                 :            : TermFreqs
      83                 :          0 : MaxPostList::get_termfreq_est_using_stats(
      84                 :            :         const Xapian::Weight::Internal & stats) const
      85                 :            : {
      86                 :            :     // We calculate the estimate assuming independence.  The simplest
      87                 :            :     // way to calculate this seems to be a series of (n_kids - 1) pairwise
      88                 :            :     // calculations, which gives the same answer regardless of the order.
      89         [ #  # ]:          0 :     TermFreqs freqs(plist[0]->get_termfreq_est_using_stats(stats));
      90                 :            : 
      91                 :            :     // Our caller should have ensured this.
      92                 :            :     Assert(stats.collection_size);
      93                 :          0 :     double scale = 1.0 / stats.collection_size;
      94                 :          0 :     double P_est = freqs.termfreq * scale;
      95                 :          0 :     double rtf_scale = 0.0;
      96         [ #  # ]:          0 :     if (stats.rset_size != 0) {
      97                 :          0 :         rtf_scale = 1.0 / stats.rset_size;
      98                 :            :     }
      99                 :          0 :     double Pr_est = freqs.reltermfreq * rtf_scale;
     100                 :          0 :     double cf_scale = 1.0 / stats.total_term_count;
     101                 :          0 :     double Pc_est = freqs.collfreq * cf_scale;
     102                 :            : 
     103         [ #  # ]:          0 :     for (size_t i = 1; i < n_kids; ++i) {
     104         [ #  # ]:          0 :         freqs = plist[i]->get_termfreq_est_using_stats(stats);
     105                 :          0 :         double P_i = freqs.termfreq * scale;
     106                 :          0 :         P_est += P_i - P_est * P_i;
     107                 :          0 :         double Pc_i = freqs.collfreq * cf_scale;
     108                 :          0 :         Pc_est += Pc_i - Pc_est * Pc_i;
     109                 :            :         // If the rset is empty, Pr_est should be 0 already, so leave
     110                 :            :         // it alone.
     111         [ #  # ]:          0 :         if (stats.rset_size != 0) {
     112                 :          0 :             double Pr_i = freqs.reltermfreq * rtf_scale;
     113                 :          0 :             Pr_est += Pr_i - Pr_est * Pr_i;
     114                 :            :         }
     115                 :            :     }
     116                 :          0 :     return TermFreqs(Xapian::doccount(P_est * stats.collection_size + 0.5),
     117                 :          0 :                      Xapian::doccount(Pr_est * stats.rset_size + 0.5),
     118                 :          0 :                      Xapian::termcount(Pc_est * stats.total_term_count + 0.5));
     119                 :            : }
     120                 :            : 
     121                 :            : Xapian::docid
     122                 :       3482 : MaxPostList::get_docid() const
     123                 :            : {
     124                 :       3482 :     return did;
     125                 :            : }
     126                 :            : 
     127                 :            : double
     128                 :       1741 : MaxPostList::get_weight(Xapian::termcount doclen,
     129                 :            :                         Xapian::termcount unique_terms) const
     130                 :            : {
     131                 :            :     Assert(did);
     132                 :       1741 :     double res = 0.0;
     133         [ +  + ]:       5223 :     for (size_t i = 0; i < n_kids; ++i) {
     134 [ +  - ][ +  + ]:       3482 :         if (plist[i]->get_docid() == did)
     135 [ +  - ][ +  - ]:       2070 :             res = max(res, plist[i]->get_weight(doclen, unique_terms));
     136                 :            :     }
     137                 :       1741 :     return res;
     138                 :            : }
     139                 :            : 
     140                 :            : bool
     141                 :       1741 : MaxPostList::at_end() const
     142                 :            : {
     143                 :       1741 :     return (did == 0);
     144                 :            : }
     145                 :            : 
     146                 :            : double
     147                 :          8 : MaxPostList::recalc_maxweight()
     148                 :            : {
     149         [ +  - ]:          8 :     double result = plist[0]->recalc_maxweight();
     150         [ +  + ]:         16 :     for (size_t i = 1; i < n_kids; ++i) {
     151 [ +  - ][ +  - ]:          8 :         result = max(result, plist[i]->recalc_maxweight());
     152                 :            :     }
     153                 :          8 :     return result;
     154                 :            : }
     155                 :            : 
     156                 :            : PostList *
     157                 :       1749 : MaxPostList::next(double w_min)
     158                 :            : {
     159                 :       1749 :     Xapian::docid old_did = did;
     160                 :       1749 :     did = 0;
     161         [ +  + ]:       5247 :     for (size_t i = 0; i < n_kids; ++i) {
     162                 :       3498 :         Xapian::docid cur_did = 0;
     163         [ +  + ]:       3498 :         if (old_did != 0)
     164                 :       3482 :             cur_did = plist[i]->get_docid();
     165         [ +  + ]:       3498 :         if (cur_did <= old_did) {
     166                 :            :             PostList * res;
     167 [ +  + ][ +  - ]:       2086 :             if (old_did == 0 || cur_did == old_did) {
     168                 :       2086 :                 res = plist[i]->next(w_min);
     169                 :            :             } else {
     170                 :          0 :                 res = plist[i]->skip_to(old_did + 1, w_min);
     171                 :            :             }
     172         [ -  + ]:       2086 :             if (res) {
     173         [ #  # ]:          0 :                 delete plist[i];
     174                 :          0 :                 plist[i] = res;
     175                 :            :             }
     176                 :            : 
     177         [ +  + ]:       2086 :             if (plist[i]->at_end()) {
     178                 :          8 :                 erase_sublist(i--);
     179                 :          8 :                 continue;
     180                 :            :             }
     181                 :            : 
     182         [ -  + ]:       2078 :             if (res)
     183                 :          0 :                 matcher->force_recalc();
     184                 :            : 
     185                 :       2078 :             cur_did = plist[i]->get_docid();
     186                 :            :         }
     187                 :            : 
     188 [ +  + ][ +  + ]:       3490 :         if (did == 0 || cur_did < did) {
     189                 :       2195 :             did = cur_did;
     190                 :            :         }
     191                 :            :     }
     192                 :            : 
     193         [ +  + ]:       1749 :     if (n_kids == 1) {
     194                 :          8 :         n_kids = 0;
     195                 :          8 :         return plist[0];
     196                 :            :     }
     197                 :            : 
     198                 :       1741 :     return NULL;
     199                 :            : }
     200                 :            : 
     201                 :            : PostList *
     202                 :          0 : MaxPostList::skip_to(Xapian::docid did_min, double w_min)
     203                 :            : {
     204                 :          0 :     Xapian::docid old_did = did;
     205                 :          0 :     did = 0;
     206         [ #  # ]:          0 :     for (size_t i = 0; i < n_kids; ++i) {
     207                 :          0 :         Xapian::docid cur_did = 0;
     208         [ #  # ]:          0 :         if (old_did != 0)
     209                 :          0 :             cur_did = plist[i]->get_docid();
     210         [ #  # ]:          0 :         if (cur_did < did_min) {
     211                 :          0 :             PostList * res = plist[i]->skip_to(did_min, w_min);
     212         [ #  # ]:          0 :             if (res) {
     213         [ #  # ]:          0 :                 delete plist[i];
     214                 :          0 :                 plist[i] = res;
     215                 :            :             }
     216                 :            : 
     217         [ #  # ]:          0 :             if (plist[i]->at_end()) {
     218                 :          0 :                 erase_sublist(i--);
     219                 :          0 :                 continue;
     220                 :            :             }
     221                 :            : 
     222         [ #  # ]:          0 :             if (res)
     223                 :          0 :                 matcher->force_recalc();
     224                 :            : 
     225                 :          0 :             cur_did = plist[i]->get_docid();
     226                 :            :         }
     227                 :            : 
     228 [ #  # ][ #  # ]:          0 :         if (did == 0 || cur_did < did) {
     229                 :          0 :             did = cur_did;
     230                 :            :         }
     231                 :            :     }
     232                 :            : 
     233         [ #  # ]:          0 :     if (n_kids == 1) {
     234                 :          0 :         n_kids = 0;
     235                 :          0 :         return plist[0];
     236                 :            :     }
     237                 :            : 
     238                 :          0 :     return NULL;
     239                 :            : }
     240                 :            : 
     241                 :            : string
     242                 :          0 : MaxPostList::get_description() const
     243                 :            : {
     244         [ #  # ]:          0 :     string desc("(");
     245 [ #  # ][ #  # ]:          0 :     desc += plist[0]->get_description();
     246         [ #  # ]:          0 :     for (size_t i = 1; i < n_kids; ++i) {
     247         [ #  # ]:          0 :         desc += " MAX ";
     248 [ #  # ][ #  # ]:          0 :         desc += plist[i]->get_description();
     249                 :            :     }
     250         [ #  # ]:          0 :     desc += ')';
     251                 :          0 :     return desc;
     252                 :            : }
     253                 :            : 
     254                 :            : Xapian::termcount
     255                 :          0 : MaxPostList::get_wdf() const
     256                 :            : {
     257                 :          0 :     Xapian::termcount totwdf = 0;
     258         [ #  # ]:          0 :     for (size_t i = 0; i < n_kids; ++i) {
     259         [ #  # ]:          0 :         if (plist[i]->get_docid() == did)
     260                 :          0 :             totwdf += plist[i]->get_wdf();
     261                 :            :     }
     262                 :          0 :     return totwdf;
     263                 :            : }
     264                 :            : 
     265                 :            : Xapian::termcount
     266                 :         40 : MaxPostList::count_matching_subqs() const
     267                 :            : {
     268                 :         40 :     return 1;
     269                 :            : }

Generated by: LCOV version 1.11