相当的悲剧,Nutch1.1 关于User-Agent 问题

今天定了个计划,想做 一个程序员解答的 专业搜索引擎,因为各方面的原因,主要是带宽和速度,现在不能去做通用搜索引擎,所以之能做一些专用和 整站搜索的引擎,昨天对我们公司的做了下,很开心。。。呵呵,

 

关于程序员 技术方面的 看法:因为好多技术问题,通用搜索引擎无法给出好的解答,因为不够专业,而且如果在搜索引擎上排的靠前。。必然是一些过时的。。。(为什么?自己想想,呵呵),这也是stackOverFlow诞生的根源(详见http://stackoverflow.com/,中国实在是太落后喽。。。),但我不认为一个网站能够解决所有的问题,这还是要靠搜索引擎去搞的,呵呵

 

初步打算用几个 程序员论坛做为入口,

1对其做整站搜索

2更期更新索引

3根据发表时间排序

4根据内容匹配度排序

5根据用户输入进行类似搜索(主要是在用户输入 时对QUARY进行分词时做相似性的处理)

 

今天在准备打整个CSDN和JAVAEYE的论坛进行索引。。。但是相当的悲哀。。。因为CSDN的论坛首页是基于框架的,而爬虫对这种一直支持的都不太好。。。我靠。。。。那就JAVAEYE吧。。。这个更悲哀。。。直接显示 拒绝,因为我有可能使用爬虫。。。 后来网上一搜是发现06年JAVAEYE曾被小虫子搞的几近瘫痪。。。我想想,那我改个USER-agent好了吧。。。伪装成浏览器,哈哈,网上一搜,改成:

Mozilla/5.0 (SymbianOS/9.1; U; [en-us]) AppleWebKit/413 (KHTML, like Gecko) Safari/413

但是还是被拒绝。。。很奇怪。。。抓包:发现:

Nutch在我的USER-agent后自动追加"/Nutch-1.1",我靠啊。。。它搞毛啊,这样就没办法伪装了。。。一下就会被发现。。。去找源码改吧。。。好不容易找到了。。。发现代码是在lib-html.jar包中。。。我虽然有源代码。。。但是暂时还没办法改。。。好悲哀。。。明天再研究吧。。。唉。。睡了睡了。。。相当的悲哀。。。。兄弟们晚安。。。嘿嘿

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值