- 博客(6)
- 收藏
- 关注
原创 TSE从正向索引到反向索引
分词的代码在HzSeg.cpp中。对raw格式的网页内容 进行分割的代码在DocSegment.cpp中前面已经建立好2个表,一个是url对应着记录号,一个是记录号对应的偏移。现在开始对网页进行处理,实际上只用到第2张表。遍历这张表,把一个一个的记录取出来,存到CDocument对象里,将来要用时就知道这个记录在原始文件raw里的偏移是多少,可以跳到那个位置去读 w
2008-05-25 01:36:00 447
原创 TSE的中文分词
TSE的字典用的是STL 中的MAP.关于英文字母的trie字典树,是一个26 叉树,查找效率0(logn).现在,要把一篇网页内容分割成一个一个的关键词.TSE用的是最大正向减字法分词.先用一个很大的数组接受html里,除了分成一个一个的句子来处理.对一个句子,每次按照长度为ComLen来提取关键字,先用一个指针char* start指示开头,用char* end来指示待匹配
2008-05-25 01:32:00 539
原创 TSE的网页索引
全部过程是这样的.根据驻留在内存里的set集合,取出没有爬取的网页连接,然后就去把它下载下来.比如,下载了1000个网页,然后把这1000个HTML都放到一个文件里去,这个文件可能叫TianWang.raw.8415意思就是线程号为8415的取的原始网页集合文件对于每个在TianWang.raw.8415中的记录,都有一个对应的类叫CDocument(有点类似CPage.)需要
2008-05-25 01:30:00 432
原创 TSE代码爬取流程分析
开始是main函数,在main.cpp如果控制台参数是1个,就进行搜索:CSearch iSearch; iSearch.DoSearch(); 如果控制台参数是2个,就运行网络爬虫:CCrawl iCrawl(argv[2], "visited.all"); iCrawl.DoCrawl();其中 argv[2]是inputfile visited.all是out
2008-05-25 01:28:00 474
原创 TSE中提取HTML中链接的方法
TSE中提取html中链接 uri 采用的是Lex分析 TSE中和lex相关的是hlink.l和uri.l 其中 uri.l是用来处理一个提取出的uri ,hlink.l是用来提取html中链接的。
2008-05-25 01:26:00 518
原创 zernike代码
#include stdio.h>#include string.h>#include math.h>#include "cv.h"#include "highgui.h" #define MaxP(x,y) (float)(x>y?x:y)#define MinP(x,y) (float)(x#define PI 3.14#define MAXFACT 50unsigned int
2008-05-25 01:23:00 1241 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人