wilbur8415-CSDN博客

原创 TSE从正向索引到反向索引

分词的代码在HzSeg.cpp中。对raw格式的网页内容进行分割的代码在DocSegment.cpp中前面已经建立好2个表，一个是url对应着记录号，一个是记录号对应的偏移。现在开始对网页进行处理，实际上只用到第2张表。遍历这张表，把一个一个的记录取出来，存到CDocument对象里,将来要用时就知道这个记录在原始文件raw里的偏移是多少，可以跳到那个位置去读 w

2008-05-25 01:36:00 447

原创 TSE的中文分词

TSE的字典用的是STL 中的MAP.关于英文字母的trie字典树,是一个26 叉树,查找效率0(logn).现在,要把一篇网页内容分割成一个一个的关键词.TSE用的是最大正向减字法分词.先用一个很大的数组接受html里,除了分成一个一个的句子来处理.对一个句子,每次按照长度为ComLen来提取关键字,先用一个指针char* start指示开头,用char* end来指示待匹配

2008-05-25 01:32:00 539

原创 TSE的网页索引

全部过程是这样的.根据驻留在内存里的set集合,取出没有爬取的网页连接,然后就去把它下载下来.比如,下载了1000个网页,然后把这1000个HTML都放到一个文件里去,这个文件可能叫TianWang.raw.8415意思就是线程号为8415的取的原始网页集合文件对于每个在TianWang.raw.8415中的记录,都有一个对应的类叫CDocument(有点类似CPage.)需要

2008-05-25 01:30:00 432

原创 TSE代码爬取流程分析

开始是main函数,在main.cpp如果控制台参数是1个,就进行搜索:CSearch iSearch; iSearch.DoSearch(); 如果控制台参数是2个,就运行网络爬虫:CCrawl iCrawl(argv[2], "visited.all"); iCrawl.DoCrawl();其中 argv[2]是inputfile visited.all是out

2008-05-25 01:28:00 474

原创 TSE中提取HTML中链接的方法

TSE中提取html中链接 uri 采用的是Lex分析 TSE中和lex相关的是hlink.l和uri.l 其中 uri.l是用来处理一个提取出的uri ，hlink.l是用来提取html中链接的。

2008-05-25 01:26:00 518

原创 zernike代码

#include stdio.h>#include string.h>#include math.h>#include "cv.h"#include "highgui.h" #define MaxP(x,y) (float)(x>y?x:y)#define MinP(x,y) (float)(x#define PI 3.14#define MAXFACT 50unsigned int

2008-05-25 01:23:00 1241 1

wilbur8415的专栏