LCOV - code coverage report
Current view: top level - backends/honey - honey_postlist.h (source / functions) Hit Total Coverage
Test: Test Coverage for xapian-core 4ba52dacf4fb Lines: 28 36 77.8 %
Date: 2019-05-20 14:58:19 Functions: 9 10 90.0 %
Branches: 10 34 29.4 %

           Branch data     Line data    Source code
       1                 :            : /** @file honey_postlist.h
       2                 :            :  * @brief PostList in a honey database.
       3                 :            :  */
       4                 :            : /* Copyright (C) 2007,2009,2011,2013,2015,2016,2017,2018 Olly Betts
       5                 :            :  * Copyright (C) 2009 Lemur Consulting Ltd
       6                 :            :  *
       7                 :            :  * This program is free software; you can redistribute it and/or
       8                 :            :  * modify it under the terms of the GNU General Public License as
       9                 :            :  * published by the Free Software Foundation; either version 2 of the
      10                 :            :  * License, or (at your option) any later version.
      11                 :            :  *
      12                 :            :  * This program is distributed in the hope that it will be useful,
      13                 :            :  * but WITHOUT ANY WARRANTY; without even the implied warranty of
      14                 :            :  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
      15                 :            :  * GNU General Public License for more details.
      16                 :            :  *
      17                 :            :  * You should have received a copy of the GNU General Public License
      18                 :            :  * along with this program; if not, write to the Free Software
      19                 :            :  * Foundation, Inc., 51 Franklin St, Fifth Floor, Boston, MA  02110-1301 USA
      20                 :            :  */
      21                 :            : 
      22                 :            : #ifndef XAPIAN_INCLUDED_HONEY_POSTLIST_H
      23                 :            : #define XAPIAN_INCLUDED_HONEY_POSTLIST_H
      24                 :            : 
      25                 :            : #include "api/leafpostlist.h"
      26                 :            : #include "honey_positionlist.h"
      27                 :            : #include "pack.h"
      28                 :            : 
      29                 :            : #include <string>
      30                 :            : 
      31                 :            : class HoneyCursor;
      32                 :            : class HoneyDatabase;
      33                 :            : 
      34                 :            : namespace Honey {
      35                 :            : 
      36                 :            : /** Generate a key for a posting initial chunk. */
      37                 :            : inline std::string
      38                 :     161275 : make_postingchunk_key(const std::string& term)
      39                 :            : {
      40                 :     161275 :     std::string key;
      41         [ +  - ]:     161275 :     pack_string_preserving_sort(key, term, true);
      42                 :     161275 :     return key;
      43                 :            : }
      44                 :            : 
      45                 :            : /** Generate a key for a posting continuation chunk. */
      46                 :            : inline std::string
      47                 :          0 : make_postingchunk_key(const std::string& term, Xapian::docid did)
      48                 :            : {
      49                 :          0 :     std::string key;
      50         [ #  # ]:          0 :     pack_string_preserving_sort(key, term);
      51         [ #  # ]:          0 :     pack_uint_preserving_sort(key, did);
      52                 :          0 :     return key;
      53                 :            : }
      54                 :            : 
      55                 :            : inline Xapian::docid
      56                 :         10 : docid_from_key(const std::string& term, const std::string& key)
      57                 :            : {
      58         [ -  + ]:         10 :     if (key.size() < term.size()) {
      59                 :            :         // A key can't be shorter than the term it contains.
      60                 :          0 :         return false;
      61                 :            :     }
      62                 :         10 :     const char * p = key.data();
      63                 :         10 :     const char * end = p + key.size();
      64                 :            :     // Most terms don't contain zero bytes, so we could optimise this.
      65         [ +  - ]:         10 :     std::string term_in_key;
      66                 :            :     // FIXME: the next key might not be for a postlist chunk...
      67 [ +  - ][ -  + ]:         10 :     if (!unpack_string_preserving_sort(&p, end, term_in_key))
      68 [ #  # ][ #  # ]:          0 :         throw Xapian::DatabaseCorruptError("bad postlist key");
                 [ #  # ]
      69 [ +  - ][ +  + ]:         10 :     if (term_in_key != term)
      70                 :          1 :         return false;
      71                 :            :     Xapian::docid did;
      72         [ -  + ]:          9 :     if (!unpack_uint_preserving_sort(&p, end, &did))
      73 [ #  # ][ #  # ]:          0 :         throw Xapian::DatabaseCorruptError("bad postlist key");
                 [ #  # ]
      74                 :         10 :     return did;
      75                 :            : }
      76                 :            : 
      77                 :            : class PostingChunkReader {
      78                 :            :     const char *p;
      79                 :            :     const char *end;
      80                 :            : 
      81                 :            :     Xapian::docid did;
      82                 :            : 
      83                 :            :     Xapian::termcount wdf;
      84                 :            : 
      85                 :            :     /// The last docid in this chunk.
      86                 :            :     Xapian::docid last_did;
      87                 :            : 
      88                 :            :     Xapian::doccount termfreq;
      89                 :            : 
      90                 :            :     /** Value "to do with" collection frequency.
      91                 :            :      *
      92                 :            :      *  In order to keep this class small in size the meaning of the value of
      93                 :            :      *  collfreq_info depends on the context (which can be determined from the
      94                 :            :      *  values of other members):
      95                 :            :      *
      96                 :            :      *  * if (collfreq == 0 || tf <= 2) collfreq_info = collfreq;
      97                 :            :      *
      98                 :            :      *  * otherwise:
      99                 :            :      *
     100                 :            :      *    + if wdf is wdf_same for all documents (with the possible exception
     101                 :            :      *      of the first) then to start with:
     102                 :            :      *
     103                 :            :      *      collfreq_info = wdf_same | TOP_BIT_SET
     104                 :            :      *
     105                 :            :      *      and once we've moved onto the second entry:
     106                 :            :      *
     107                 :            :      *      collfreq_info = 0
     108                 :            :      *
     109                 :            :      *    + else collfreq_info = 1
     110                 :            :      */
     111                 :            :     Xapian::termcount collfreq_info;
     112                 :            : 
     113                 :            :   public:
     114                 :            :     /// Create an uninitialised PostingChunkReader.
     115                 :      51169 :     PostingChunkReader() : p(NULL) { }
     116                 :            : 
     117                 :            :     /// Initialise already at_end().
     118                 :        195 :     void init() {
     119                 :        195 :         p = NULL;
     120                 :        195 :         termfreq = 0;
     121                 :        195 :     }
     122                 :            : 
     123                 :            :     /// Initialise.
     124                 :      50974 :     void init(Xapian::doccount tf, Xapian::termcount cf_info) {
     125                 :      50974 :         p = NULL;
     126                 :      50974 :         termfreq = tf;
     127                 :      50974 :         collfreq_info = cf_info;
     128                 :      50974 :     }
     129                 :            : 
     130                 :            :     void assign(const char * p_, size_t len, Xapian::docid did);
     131                 :            : 
     132                 :            :     void assign(const char * p_, size_t len, Xapian::docid did_,
     133                 :            :                 Xapian::docid last_did_in_chunk,
     134                 :            :                 Xapian::termcount wdf_);
     135                 :            : 
     136                 :            :     bool at_end() const { return p == NULL; }
     137                 :            : 
     138                 :     397496 :     Xapian::doccount get_termfreq() const { return termfreq; }
     139                 :            : 
     140                 :   20735800 :     Xapian::docid get_docid() const { return did; }
     141                 :            : 
     142                 :   19058854 :     Xapian::termcount get_wdf() const { return wdf; }
     143                 :            : 
     144                 :            :     /// Advance, returning false if we've run out of data.
     145                 :            :     bool next();
     146                 :            : 
     147                 :            :     /// Skip ahead, returning false if we've run out of data.
     148                 :            :     bool skip_to(Xapian::docid target);
     149                 :            : };
     150                 :            : 
     151                 :            : }
     152                 :            : 
     153                 :            : /** PostList in a honey database. */
     154                 :            : class HoneyPostList : public LeafPostList {
     155                 :            :     /// Don't allow assignment.
     156                 :            :     HoneyPostList& operator=(const HoneyPostList&) = delete;
     157                 :            : 
     158                 :            :     /// Don't allow copying.
     159                 :            :     HoneyPostList(const HoneyPostList&) = delete;
     160                 :            : 
     161                 :            :     /// Cursor on the postlist table.
     162                 :            :     HoneyCursor* cursor;
     163                 :            : 
     164                 :            :     Honey::PostingChunkReader reader;
     165                 :            : 
     166                 :            :     /// The highest document id in this posting list.
     167                 :            :     Xapian::docid last_did;
     168                 :            : 
     169                 :            :     /// HoneyDatabase to get position table object from.
     170                 :            :     const HoneyDatabase* db;
     171                 :            : 
     172                 :            :     /** Needed so that first next() does nothing.
     173                 :            :      *
     174                 :            :      *  FIXME: Can we arrange not to need this?
     175                 :            :      */
     176                 :            :     bool started = false;
     177                 :            : 
     178                 :            :     /// Update @a reader to use the chunk currently pointed to by @a cursor.
     179                 :            :     bool update_reader();
     180                 :            : 
     181                 :            :   public:
     182                 :            :     /// Create HoneyPostList from already positioned @a cursor_.
     183                 :            :     HoneyPostList(const HoneyDatabase* db_,
     184                 :            :                   const std::string& term_,
     185                 :            :                   HoneyCursor* cursor_);
     186                 :            : 
     187                 :            :     ~HoneyPostList();
     188                 :            : 
     189                 :            :     Xapian::doccount get_termfreq() const;
     190                 :            : 
     191                 :            :     LeafPostList* open_nearby_postlist(const std::string& term_,
     192                 :            :                                        bool need_read_pos) const;
     193                 :            : 
     194                 :            :     Xapian::docid get_docid() const;
     195                 :            : 
     196                 :            :     Xapian::termcount get_wdf() const;
     197                 :            : 
     198                 :            :     bool at_end() const;
     199                 :            : 
     200                 :            :     PositionList* open_position_list() const;
     201                 :            : 
     202                 :            :     PostList* next(double w_min);
     203                 :            : 
     204                 :            :     PostList* skip_to(Xapian::docid did, double w_min);
     205                 :            : 
     206                 :            :     std::string get_description() const;
     207                 :            : };
     208                 :            : 
     209                 :            : /** PostList in a honey database with positions.
     210                 :            :  *
     211                 :            :  *  Use a special subclass to avoid the size cost for the common case where we
     212                 :            :  *  don't want positional data.
     213                 :            :  */
     214         [ -  + ]:        792 : class HoneyPosPostList : public HoneyPostList {
     215                 :            :     /** PositionList object to reuse for OP_NEAR and OP_PHRASE.
     216                 :            :      *
     217                 :            :      *  This saves the overhead of creating objects for every document
     218                 :            :      *  considered.
     219                 :            :      */
     220                 :            :     HoneyRePositionList position_list;
     221                 :            : 
     222                 :            :   public:
     223                 :            :     HoneyPosPostList(const HoneyDatabase* db_,
     224                 :            :                      const std::string& term_,
     225                 :            :                      HoneyCursor* cursor_);
     226                 :            : 
     227                 :            :     PositionList* read_position_list();
     228                 :            : 
     229                 :            :     std::string get_description() const;
     230                 :            : };
     231                 :            : 
     232                 :            : #endif // XAPIAN_INCLUDED_HONEY_POSTLIST_H

Generated by: LCOV version 1.11