搜索引擎
文章平均质量分 77
wilbur8415
这个作者很懒,什么都没留下…
展开
-
TSE中提取HTML中链接的方法
TSE中提取html中链接 uri 采用的是Lex分析 TSE中和lex相关的是hlink.l和uri.l 其中 uri.l是用来处理一个提取出的uri ,hlink.l是用来提取html中链接的。原创 2008-05-25 01:26:00 · 497 阅读 · 0 评论 -
TSE代码爬取流程分析
开始是main函数,在main.cpp如果控制台参数是1个,就进行搜索:CSearch iSearch; iSearch.DoSearch(); 如果控制台参数是2个,就运行网络爬虫:CCrawl iCrawl(argv[2], "visited.all"); iCrawl.DoCrawl();其中 argv[2]是inputfile visited.all是out原创 2008-05-25 01:28:00 · 451 阅读 · 0 评论 -
TSE从正向索引到反向索引
分词的代码在HzSeg.cpp中。对raw格式的网页内容 进行分割的代码在DocSegment.cpp中前面已经建立好2个表,一个是url对应着记录号,一个是记录号对应的偏移。现在开始对网页进行处理,实际上只用到第2张表。遍历这张表,把一个一个的记录取出来,存到CDocument对象里,将来要用时就知道这个记录在原始文件raw里的偏移是多少,可以跳到那个位置去读 w原创 2008-05-25 01:36:00 · 431 阅读 · 0 评论 -
TSE的网页索引
全部过程是这样的.根据驻留在内存里的set集合,取出没有爬取的网页连接,然后就去把它下载下来.比如,下载了1000个网页,然后把这1000个HTML都放到一个文件里去,这个文件可能叫TianWang.raw.8415意思就是线程号为8415的取的原始网页集合文件对于每个在TianWang.raw.8415中的记录,都有一个对应的类叫CDocument(有点类似CPage.)需要原创 2008-05-25 01:30:00 · 415 阅读 · 0 评论