本人一直以为中国是没有真正的研究的,所以也就没有真正的技术,即所谓的核心技术,在中国只有两个公司是我比较相信可能有自己的技术 :华为和baidu。
所以本人的这个项目也就没有什么真正自己的技术,虽然我一直想摆脱这种状态。我的研究方向是数据挖掘,可能和搜索引擎有点瓜葛吧,呵呵。
其实构建搜索引擎的目的是为了下一步的数据挖掘,我相信垂直搜索和数据挖掘将在海量的网络数据中发挥巨大和实质性的作用。
下面开始正文:
我这个搜索引擎构建的目的是取得我想得到的网络数据,以便后面继续分析这些数据,然后得出相应的结果。刚开始的时候我是以北京大学网络实验室的TSE实验系统为基础进行自己改造,但是后来发现TSE毕竟是一个实验系统,还远远未考虑搜索引擎里面的很多问题,后来又因为自己病了一个多月,然后跑到实验室发现原来那台服务器居然down掉了,晕!所以我又转向了nutch,这个传说中的很好的搜索引擎开源工具,结果效果不错。我先在windows上结合wingh编译,然后在win+tomcat跑了一个小站点,只单独搜索单个站点,没敢搜索整个网络。从昨天开始,把boss那台10多万的服务器搞好了,今天把federa装上,把各种服务都配置好了,准备把nutch移到linux上跑,这样稳定些,今天移植过程中遇到几个问题,自己对linux已经忘记太多东西了,边查资料边配置,好慢,呵呵,以后每天在实验室的工作都要记录下来,以便以后好查询,让知识有积累,呵呵,一点经验。对于nutch怎么构建,呵呵,baidu下有很多教程的,这里就不多说了,明天继续移植,争取早上搞完这个移植,然后就可以复习了,呵呵19号要考试了,600块看来要泡汤了,呵呵,周五又要做个演讲,这个刚刚才把ppt做完,呵呵,明天把移植的过程写下来,努力!