1、Doug Cutting [daug 'kʌtiŋ]
简介:
Doug Cutting是Nutch, Lucene, Hadoop开源项目的作者,搜索引擎方面的专家。
Lucene是一个提供全文文本搜索的函数库,它不是一个应用软件。它提供很多API函数让你可以运用到各种实际应用程序中。
Nutch是一个建立在Lucene核心之上的Web搜索的实现,它是一个真正的应用程序。
Hadoop是Google的分布式编程模式MapReduce的实现。MapReduce让程序自动分布到一个由普通机器组成的超大集群上并发执行。
观点:
1) 搜索引擎的反垃圾信息机制,被反向工程破解,只是时间问题。 好的机制是,破解了之后也能继续工作那一种。
2)类似GFS的文件系统,是巨型搜索引擎不可缺少的基石:你不能让一个小组件的错误导致一个大的瘫痪。你应该很容易的让系统扩展,只需往硬件池里加更多硬件而不需繁缛的重新配置。还有,你不需要一大坨的操作人员完成,所有的一切将大都自己搞定。
3)创新只有在刚发展的时候比较容易,越到后来越成熟,越不容易创新。
4)速度是搜索引擎好坏的重要因素。分布式搜索是一件很有趣的事,但我不能肯定它能否实现并保持速度足够的快。