如果我们要对某一个事件有一个具体的了解,比如这几天的欧洲杯,当然我们可以上新浪,搜狐。
但这个时候,如果有个专门针对欧洲杯的垂直搜索,把各地的资源整合起来应该是一个不错的选择。
不过,这种针对一个很窄的领域的垂直搜索,大概也不会处理超过10w张网页,如果我们用C++写后台的爬虫索引,用php写前台的页面,系统就显得太复杂了,维护起来也不方便。 于是我设想用php + mysql来实现一个能处理50W网页规模的小垂直搜索,他的爬虫是php写的,爬虫和索引数据库则是用的mysql,页面显示也是php。
这个系统的好处是,他的更新维护都可以在浏览器上搞定,比如开启爬虫,索引,以及最终网页的显示。 而且这个系统的最大优点是安装方便,要建一个垂直搜索,只要拷贝一个文件夹,然后建一个mysql数据库就可以了。
我设想这个系统可以用来针对各种新闻专题,每出现一个持续一段时间的重大事件时,这种快速更新,维护方便,特别是安装方便的搜索引擎应该有一些用处。
我现在用这一系统构建了一个nba的垂直搜索,在 http://i.cindoo.com/nba/
但这个时候,如果有个专门针对欧洲杯的垂直搜索,把各地的资源整合起来应该是一个不错的选择。
不过,这种针对一个很窄的领域的垂直搜索,大概也不会处理超过10w张网页,如果我们用C++写后台的爬虫索引,用php写前台的页面,系统就显得太复杂了,维护起来也不方便。 于是我设想用php + mysql来实现一个能处理50W网页规模的小垂直搜索,他的爬虫是php写的,爬虫和索引数据库则是用的mysql,页面显示也是php。
这个系统的好处是,他的更新维护都可以在浏览器上搞定,比如开启爬虫,索引,以及最终网页的显示。 而且这个系统的最大优点是安装方便,要建一个垂直搜索,只要拷贝一个文件夹,然后建一个mysql数据库就可以了。
我设想这个系统可以用来针对各种新闻专题,每出现一个持续一段时间的重大事件时,这种快速更新,维护方便,特别是安装方便的搜索引擎应该有一些用处。
我现在用这一系统构建了一个nba的垂直搜索,在 http://i.cindoo.com/nba/