LCOV - code coverage report
Current view: top level - weight - tfidfweight.cc (source / functions) Hit Total Coverage
Test: Test Coverage for xapian-core 954b5873a738 Lines: 115 125 92.0 %
Date: 2019-06-30 05:20:33 Functions: 14 16 87.5 %
Branches: 90 164 54.9 %

           Branch data     Line data    Source code
       1                 :            : /** @file tfidfweight.cc
       2                 :            :  * @brief Xapian::TfIdfWeight class - The TfIdf weighting scheme
       3                 :            :  */
       4                 :            : /* Copyright (C) 2013 Aarsh Shah
       5                 :            :  * Copyright (C) 2016 Vivek Pal
       6                 :            :  * Copyright (C) 2016,2017 Olly Betts
       7                 :            :  *
       8                 :            :  * This program is free software; you can redistribute it and/or
       9                 :            :  * modify it under the terms of the GNU General Public License as
      10                 :            :  * published by the Free Software Foundation; either version 2 of the
      11                 :            :  * License, or (at your option) any later version.
      12                 :            :  *
      13                 :            :  * This program is distributed in the hope that it will be useful
      14                 :            :  * but WITHOUT ANY WARRANTY; without even the implied warranty of
      15                 :            :  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the
      16                 :            :  * GNU General Public License for more details.
      17                 :            :  *
      18                 :            :  * You should have received a copy of the GNU General Public License
      19                 :            :  * along with this program; if not, write to the Free Software
      20                 :            :  * Foundation, Inc., 51 Franklin St, Fifth Floor, Boston, MA 02110-1301 USA
      21                 :            :  */
      22                 :            : 
      23                 :            : #include <config.h>
      24                 :            : 
      25                 :            : #include "xapian/weight.h"
      26                 :            : #include <cmath>
      27                 :            : #include <cstring>
      28                 :            : 
      29                 :            : #include "debuglog.h"
      30                 :            : #include "omassert.h"
      31                 :            : #include "serialise-double.h"
      32                 :            : 
      33                 :            : #include "xapian/error.h"
      34                 :            : 
      35                 :            : using namespace std;
      36                 :            : 
      37                 :            : namespace Xapian {
      38                 :            : 
      39                 :         90 : TfIdfWeight::TfIdfWeight(const std::string &normals)
      40         [ +  - ]:         92 :     : normalizations(normals), param_slope(0.2), param_delta(1.0)
      41                 :            : {
      42 [ +  - ][ +  + ]:        269 :     if (normalizations.length() != 3 ||
      43 [ +  - ][ +  + ]:        178 :         !strchr("nbslPL", normalizations[0]) ||
      44 [ +  + ][ +  - ]:        268 :         !strchr("ntpfsP", normalizations[1]) ||
                 [ -  + ]
      45         [ +  - ]:         88 :         !strchr("n", normalizations[2]))
      46 [ +  - ][ +  - ]:          2 :         throw Xapian::InvalidArgumentError("Normalization string is invalid");
                 [ +  - ]
      47 [ +  - ][ +  + ]:         88 :     if (normalizations[1] != 'n') {
      48                 :         60 :         need_stat(TERMFREQ);
      49                 :         60 :         need_stat(COLLECTION_SIZE);
      50                 :            :     }
      51                 :         88 :     need_stat(WDF);
      52                 :         88 :     need_stat(WDF_MAX);
      53                 :         88 :     need_stat(WQF);
      54 [ +  - ][ +  + ]:         88 :     if (normalizations[0] == 'L') {
      55                 :          7 :         need_stat(DOC_LENGTH);
      56                 :          7 :         need_stat(DOC_LENGTH_MIN);
      57                 :          7 :         need_stat(DOC_LENGTH_MAX);
      58                 :          7 :         need_stat(UNIQUE_TERMS);
      59                 :            :     }
      60                 :         88 : }
      61                 :            : 
      62                 :        429 : TfIdfWeight::TfIdfWeight(const std::string &normals, double slope, double delta)
      63         [ +  - ]:        429 :     : normalizations(normals), param_slope(slope), param_delta(delta)
      64                 :            : {
      65 [ +  - ][ -  + ]:       1287 :     if (normalizations.length() != 3 ||
      66 [ +  - ][ +  - ]:        858 :         !strchr("nbslPL", normalizations[0]) ||
      67 [ +  - ][ +  - ]:       1287 :         !strchr("ntpfsP", normalizations[1]) ||
                 [ -  + ]
      68         [ +  - ]:        429 :         !strchr("n", normalizations[2]))
      69 [ #  # ][ #  # ]:          0 :         throw Xapian::InvalidArgumentError("Normalization string is invalid");
                 [ #  # ]
      70         [ -  + ]:        429 :     if (param_slope <= 0)
      71 [ #  # ][ #  # ]:          0 :         throw Xapian::InvalidArgumentError("Parameter slope is invalid.");
                 [ #  # ]
      72         [ -  + ]:        429 :     if (param_delta <= 0)
      73 [ #  # ][ #  # ]:          0 :         throw Xapian::InvalidArgumentError("Parameter delta is invalid.");
                 [ #  # ]
      74 [ +  - ][ +  + ]:        429 :     if (normalizations[1] != 'n') {
      75                 :        329 :         need_stat(TERMFREQ);
      76                 :        329 :         need_stat(COLLECTION_SIZE);
      77                 :            :     }
      78                 :        429 :     need_stat(WDF);
      79                 :        429 :     need_stat(WDF_MAX);
      80                 :        429 :     need_stat(WQF);
      81 [ +  - ][ +  + ]:        429 :     if (normalizations[0] == 'P' || normalizations[1] == 'P') {
         [ +  - ][ +  + ]
                 [ +  + ]
      82                 :        128 :         need_stat(AVERAGE_LENGTH);
      83                 :        128 :         need_stat(DOC_LENGTH);
      84                 :        128 :         need_stat(DOC_LENGTH_MIN);
      85                 :            :     }
      86 [ +  - ][ +  + ]:        429 :     if (normalizations[0] == 'L') {
      87                 :         25 :         need_stat(DOC_LENGTH);
      88                 :         25 :         need_stat(DOC_LENGTH_MIN);
      89                 :         25 :         need_stat(DOC_LENGTH_MAX);
      90                 :         25 :         need_stat(UNIQUE_TERMS);
      91                 :            :     }
      92                 :        429 : }
      93                 :            : 
      94                 :            : TfIdfWeight *
      95                 :        368 : TfIdfWeight::clone() const
      96                 :            : {
      97         [ +  - ]:        368 :     return new TfIdfWeight(normalizations, param_slope, param_delta);
      98                 :            : }
      99                 :            : 
     100                 :            : void
     101                 :        256 : TfIdfWeight::init(double factor_)
     102                 :            : {
     103         [ +  + ]:        256 :     if (factor_ == 0.0) {
     104                 :            :         // This object is for the term-independent contribution, and that's
     105                 :            :         // always zero for this scheme.
     106                 :        128 :         return;
     107                 :            :     }
     108                 :            : 
     109                 :        128 :     wqf_factor = get_wqf() * factor_;
     110                 :        128 :     idfn = get_idfn(normalizations[1]);
     111                 :            : }
     112                 :            : 
     113                 :            : string
     114                 :       1592 : TfIdfWeight::name() const
     115                 :            : {
     116         [ +  - ]:       1592 :     return "Xapian::TfIdfWeight";
     117                 :            : }
     118                 :            : 
     119                 :            : string
     120                 :       1559 : TfIdfWeight::short_name() const
     121                 :            : {
     122         [ +  - ]:       1559 :     return "tfidf";
     123                 :            : }
     124                 :            : 
     125                 :            : string
     126                 :         42 : TfIdfWeight::serialise() const
     127                 :            : {
     128                 :         42 :     string result = serialise_double(param_slope);
     129 [ +  - ][ +  - ]:         42 :     result += serialise_double(param_delta);
     130         [ +  - ]:         42 :     result += normalizations;
     131                 :         42 :     return result;
     132                 :            : }
     133                 :            : 
     134                 :            : TfIdfWeight *
     135                 :         34 : TfIdfWeight::unserialise(const string & s) const
     136                 :            : {
     137                 :         34 :     const char *ptr = s.data();
     138                 :         34 :     const char *end = ptr + s.size();
     139         [ +  - ]:         34 :     double slope = unserialise_double(&ptr, end);
     140         [ +  - ]:         34 :     double delta = unserialise_double(&ptr, end);
     141         [ +  - ]:         34 :     string normals(ptr, end);
     142                 :         34 :     ptr += 3;
     143         [ +  + ]:         34 :     if (rare(ptr != end))
     144 [ +  - ][ +  - ]:          1 :         throw Xapian::SerialisationError("Extra data in TfIdfWeight::unserialise()");
                 [ +  - ]
     145 [ +  - ][ +  - ]:         34 :     return new TfIdfWeight(normals, slope, delta);
     146                 :            : }
     147                 :            : 
     148                 :            : double
     149                 :        252 : TfIdfWeight::get_sumpart(Xapian::termcount wdf, Xapian::termcount doclen,
     150                 :            :                          Xapian::termcount uniqterms) const
     151                 :            : {
     152                 :        252 :     double wdfn = get_wdfn(wdf, doclen, uniqterms, normalizations[0]);
     153                 :        252 :     return get_wtn(wdfn * idfn, normalizations[2]) * wqf_factor;
     154                 :            : }
     155                 :            : 
     156                 :            : // An upper bound can be calculated simply on the basis of wdf_max as termfreq
     157                 :            : // and N are constants.
     158                 :            : double
     159                 :        256 : TfIdfWeight::get_maxpart() const
     160                 :            : {
     161                 :        256 :     Xapian::termcount wdf_max = get_wdf_upper_bound();
     162                 :        256 :     Xapian::termcount len_min = get_doclength_lower_bound();
     163                 :        256 :     double wdfn = get_wdfn(wdf_max, len_min, len_min, normalizations[0]);
     164                 :        256 :     return get_wtn(wdfn * idfn, normalizations[2]) * wqf_factor;
     165                 :            : }
     166                 :            : 
     167                 :            : // There is no extra per document component in the TfIdfWeighting scheme.
     168                 :            : double
     169                 :          0 : TfIdfWeight::get_sumextra(Xapian::termcount, Xapian::termcount) const
     170                 :            : {
     171                 :          0 :     return 0;
     172                 :            : }
     173                 :            : 
     174                 :            : double
     175                 :        128 : TfIdfWeight::get_maxextra() const
     176                 :            : {
     177                 :        128 :     return 0;
     178                 :            : }
     179                 :            : 
     180                 :            : // Return normalized wdf, idf and weight depending on the normalization string.
     181                 :            : double
     182                 :        508 : TfIdfWeight::get_wdfn(Xapian::termcount wdf, Xapian::termcount doclen,
     183                 :            :                       Xapian::termcount uniqterms, char c) const
     184                 :            : {
     185   [ +  +  +  +  :        508 :     switch (c) {
                   +  + ]
     186                 :            :         case 'b':
     187         [ -  + ]:         23 :             if (wdf == 0) return 0;
     188                 :         23 :             return 1.0;
     189                 :            :         case 's':
     190                 :         51 :             return (wdf * wdf);
     191                 :            :         case 'l':
     192         [ -  + ]:         30 :             if (wdf == 0) return 0;
     193                 :         30 :             return (1 + log(double(wdf)));
     194                 :            :         case 'P': {
     195         [ -  + ]:        132 :             if (wdf == 0) return 0;
     196                 :        132 :             double normlen = doclen / get_average_length();
     197                 :        132 :             double norm_factor = 1 / (1 - param_slope + (param_slope * normlen));
     198                 :        132 :             return ((1 + log(1 + log(double(wdf)))) * norm_factor + param_delta);
     199                 :            :         }
     200                 :            :         case 'L': {
     201         [ -  + ]:         30 :             if (wdf == 0) return 0;
     202                 :         30 :             double uniqterm_double = uniqterms;
     203                 :         30 :             double doclen_double = doclen;
     204                 :         30 :             double wdf_avg = 1;
     205 [ +  - ][ -  + ]:         30 :             if (doclen_double == 0 || uniqterm_double == 0)
     206                 :          0 :                 wdf_avg = 1;
     207                 :            :             else
     208                 :         30 :                 wdf_avg = doclen_double / uniqterm_double;
     209                 :         30 :             double num = 1 + log(double(wdf));
     210                 :         30 :             double den = 1 + log(wdf_avg);
     211                 :         30 :             return num / den;
     212                 :            :         }
     213                 :            :         default:
     214                 :            :             AssertEq(c, 'n');
     215                 :        242 :             return wdf;
     216                 :            :     }
     217                 :            : }
     218                 :            : 
     219                 :            : double
     220                 :        128 : TfIdfWeight::get_idfn(char c) const
     221                 :            : {
     222                 :        128 :     Xapian::doccount termfreq = 1;
     223         [ +  + ]:        128 :     if (c != 'n') termfreq = get_termfreq();
     224                 :        128 :     double N = 1.0;
     225 [ +  + ][ +  + ]:        128 :     if (c != 'n' && c != 'f') N = get_collection_size();
     226   [ +  +  +  +  :        128 :     switch (c) {
                   +  + ]
     227                 :            :         case 'n':
     228                 :         32 :             return 1.0;
     229                 :            :         case 'p':
     230                 :            :             // All documents are indexed by the term
     231         [ +  + ]:         16 :             if (N == termfreq) return 0;
     232                 :          8 :             return log((N - termfreq) / termfreq);
     233                 :            :         case 'f':
     234                 :          8 :             return (1.0 / termfreq);
     235                 :            :         case 's':
     236                 :          8 :             return pow(log(N / termfreq), 2.0);
     237                 :            :         case 'P':
     238                 :         24 :             return log((N + 1) / termfreq);
     239                 :            :         default:
     240                 :            :             AssertEq(c, 't');
     241                 :         40 :             return (log(N / termfreq));
     242                 :            :     }
     243                 :            : }
     244                 :            : 
     245                 :            : double
     246                 :        508 : TfIdfWeight::get_wtn(double wt, char c) const
     247                 :            : {
     248                 :            :     (void)c;
     249                 :            :     AssertEq(c, 'n');
     250                 :        508 :     return wt;
     251                 :            : }
     252                 :            : 
     253                 :            : TfIdfWeight *
     254                 :          0 : TfIdfWeight::create_from_parameters(const char * p) const
     255                 :            : {
     256         [ #  # ]:          0 :     if (*p == '\0')
     257         [ #  # ]:          0 :         return new Xapian::TfIdfWeight();
     258 [ #  # ][ #  # ]:          0 :     return new Xapian::TfIdfWeight(p);
                 [ #  # ]
     259                 :            : }
     260                 :            : 
     261                 :            : }

Generated by: LCOV version 1.11