TSE从正向索引到反向索引

最新推荐文章于 2024-06-13 18:21:18 发布

wilbur8415

最新推荐文章于 2024-06-13 18:21:18 发布

阅读量444

点赞数

分类专栏：搜索引擎文章标签： vector header html url

本文链接：https://blog.csdn.net/wilbur8415/article/details/2478983

版权

搜索引擎专栏收录该内容

4 篇文章 0 订阅

订阅专栏

分词的代码在HzSeg.cpp中。

对raw格式的网页内容进行分割的代码在DocSegment.cpp中

前面已经建立好2个表，一个是url对应着记录号，一个是记录号对应的偏移。

现在开始对网页进行处理，实际上只用到第2张表。

遍历这张表，把一个一个的记录取出来，存到CDocument对象里,将来要用时就知道

这个记录在原始文件raw里的偏移是多少，可以跳到那个位置去读

while (getline(ifsDoc,strLine)){
    int docid,pos,length;
    char chksum[ 33 ];

   memset(chksum, 0 , 33 );
   sscanf( strLine.c_str(), " %d%d%d%s " , & docid, & pos, & length,chksum );
   iDocument.m_nDocId = docid;
   iDocument.m_nPos = pos;
   iDocument.m_nLength = length;
   iDocument.m_sChecksum = chksum;
   vecCDocument.push_back(iDocument);
}

然后从vector里面取出每个记录号，读取一个记录的所有内容（包括头）

然后移动致实际内容开始的地方

// skip Head
    int bytesRead = 0 ,newlines = 0 ;
    while (newlines != 2 && bytesRead != HEADER_BUF_SIZE - 1 ) {
     if ( * s == ' ' )
     newlines ++ ;
     else
     newlines = 0 ;
    s ++ ;
    bytesRead ++ ;
   }

把接下来的html正文内容传给iDocument.m_sBodyNoTags = s;

最后执行分词

string strLine = iDocument.m_sBodyNoTags;

CHzSeg iHzSeg;
strLine = iHzSeg.SegmentSentenceMM(iDict,strLine);

分词的结果是记录ID号对应以"/"分割的关键字

重定向到正向索引文件中：