搜索引擎杂类
yy8354
这个作者很懒,什么都没留下…
展开
-
Gecko(jrex)研究记录 JS AJAX页面内容抓取处理(1)
为了解决JS AJAX网站问题必须一个能够模拟用户操作行为来得到页面上数据的展示,在模拟用户行为上我们需要解决两件事情:1、得到渲染后的网页HTML代码 一般在浏览器中查看页面代码 是浏览器直接下载到的页面代码 在未经渲染前 对于JS AJAX输出的内容是无法得到的 这样我们得到的页面内容和直接走socket抓取回来无任何区别 还是无法得到需要的页面内容2、JS函数及页面元素事件的调用 这些很简单...2009-04-09 09:20:26 · 279 阅读 · 0 评论 -
Gecko(jrex)研究记录 JS AJAX页面内容抓取处理(2)
HTMLDocument doc=(HTMLDocument)navigation.getDocument();HTMLFormElement form=(HTMLFormElement)doc.getForms().item(0);form.submit();接上回的问题 关于元素事件的调用 以上为主要代码 与IE的webbrowser不同,它必须强转成对应的HTMLFormElement HT...2009-04-09 09:21:04 · 143 阅读 · 0 评论 -
大规模网页快速消重中网页特征的提取
刚在群里有人突然提起这个,也就顺便写写大家暂且看之,所以算法都需要考虑应用场景,而我自己设计的算法也仅满足我当时的业务应用而已,不可直接照抄,否则后果自负。1、一般处理的方法(1)最原始的使用文本相似度判别,相当准确,但是计算速度慢,提高的方法无非是先索引进行预处理,或者用SVD来降维减少矩阵运算时间(2)文本摘要为文本特征,进行特征重复判别(3)抽取文本关键词,构成比较小的文本向量做为特征进行判...2009-04-09 09:22:05 · 153 阅读 · 0 评论 -
BloomFilter算法的C#简化版,主要应用于URL消重
using System;using System.Collections;using System.Text;using NUnit.Framework;namespace OurAlgorithmCollections{ public class BloomFilter { /// <summary> /// BitArray用来替代内存块,在C/C++中可使用...2009-04-09 09:27:07 · 125 阅读 · 0 评论 -
同一进程内线程的CPU占用
public ArrayList ShowProcessThreadList(Process pID){ArrayList List = new ArrayList();ProcessThreadCollection tList;tList = pID.Threads;TimeSpan totalThreads = new TimeSpan();foreach (ProcessThread tID...2009-04-09 09:28:31 · 211 阅读 · 0 评论 -
JAVA与C#通信过程中数据转换问题解决
由于JAVA语言的数据类型都是有符号类型,而C# C++一般数据类型都是分有符号和无符号,因此在通信过程中传递的Byte[]无法直接转换成C#需要的类型,以前倒是没注意这些细节,因为一般用一种语言编程,大都有内置的转换方法。跨语言环境的转换就的自己动手想办法了。1、java的Byte[]转换成c#的Int32 private int CoverJavaByteToInt(by...2009-06-05 15:13:40 · 276 阅读 · 0 评论 -
(下载)搜索引擎、自然语言理解相关的论文和电子书
以前的BLOG直接提供下载,现在都上传到网络硬盘了,这个速度还挺快的。以后陆续把之前的资源整理完了上传上去。就不另写帖子了,在这里置顶,不定期更新。 http://www.ziddu.com/download/5316375/计算机语言学-词法分析.rar.html http://www.ziddu.com/download/5316374/LuceneInAction.rar.html http...2009-06-24 10:31:01 · 105 阅读 · 0 评论 -
解压chunked
//处理Transfer-Encoding="chunked"的头的压缩数据 private static byte[] doUnchunk(byte[] writeData) { try { if ((writeData == null) || (writeData.length == 0)) { ...2009-08-14 17:43:38 · 232 阅读 · 0 评论