自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 TSE从正向索引到反向索引

分词的代码在HzSeg.cpp中。对raw格式的网页内容 进行分割的代码在DocSegment.cpp中前面已经建立好2个表,一个是url对应着记录号,一个是记录号对应的偏移。现在开始对网页进行处理,实际上只用到第2张表。遍历这张表,把一个一个的记录取出来,存到CDocument对象里,将来要用时就知道这个记录在原始文件raw里的偏移是多少,可以跳到那个位置去读 w

2008-05-25 01:36:00 447

原创 TSE的中文分词

TSE的字典用的是STL 中的MAP.关于英文字母的trie字典树,是一个26 叉树,查找效率0(logn).现在,要把一篇网页内容分割成一个一个的关键词.TSE用的是最大正向减字法分词.先用一个很大的数组接受html里,除了分成一个一个的句子来处理.对一个句子,每次按照长度为ComLen来提取关键字,先用一个指针char* start指示开头,用char* end来指示待匹配

2008-05-25 01:32:00 539

原创 TSE的网页索引

全部过程是这样的.根据驻留在内存里的set集合,取出没有爬取的网页连接,然后就去把它下载下来.比如,下载了1000个网页,然后把这1000个HTML都放到一个文件里去,这个文件可能叫TianWang.raw.8415意思就是线程号为8415的取的原始网页集合文件对于每个在TianWang.raw.8415中的记录,都有一个对应的类叫CDocument(有点类似CPage.)需要

2008-05-25 01:30:00 432

原创 TSE代码爬取流程分析

开始是main函数,在main.cpp如果控制台参数是1个,就进行搜索:CSearch iSearch;   iSearch.DoSearch(); 如果控制台参数是2个,就运行网络爬虫:CCrawl iCrawl(argv[2], "visited.all");   iCrawl.DoCrawl();其中 argv[2]是inputfile visited.all是out

2008-05-25 01:28:00 474

原创 TSE中提取HTML中链接的方法

TSE中提取html中链接 uri 采用的是Lex分析 TSE中和lex相关的是hlink.l和uri.l   其中 uri.l是用来处理一个提取出的uri ,hlink.l是用来提取html中链接的。

2008-05-25 01:26:00 518

原创 zernike代码

#include stdio.h>#include string.h>#include math.h>#include "cv.h"#include "highgui.h" #define MaxP(x,y) (float)(x>y?x:y)#define MinP(x,y) (float)(x#define PI  3.14#define  MAXFACT    50unsigned int

2008-05-25 01:23:00 1241 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除