xn4545945 http://blog.xigulu.com

专注互联网。业精于勤,荒于嬉;行成于思,毁于随。

搜索引擎----Java实现一个简单的网络爬虫

Java实现一个简单的爬虫程序。考虑了robots协议。 package SearchCrawler; import java.util.*; import java.net.*; import java.io.*; import java.util.regex.*; /* *搜索We...

2013-04-30 23:16:59

阅读数:2723

评论数:0

搜索引擎----网络爬虫

网络爬虫以叫网络蜘蛛(Spider或Crawler),网络机器人,是一个程序,会自动抓取互联网上的网页。这种技术一般可能会检查你的站点上所有的链接。当然,更为高级的技术是把网页中的相关数据分类保存下来,成为搜索引擎的数据源。 基本架构图: 传统爬虫从一个或若干初始网...

2013-04-28 23:18:20

阅读数:1818

评论数:0

有趣的编程----控制自己电脑的CPU

一、题目:写一个程序,让windows任务管理器中的CPU占用率显示为一条正弦函数曲线。 第一眼看到这个题目,本人确实是没有多大思路的。因为一直没有对性能和CPU占用上考虑太多。真正看书查资料弄完才觉得确实很不错的一个应用题。以下将一步步完成控制的任务。 二、本人运行环境: 操作系统...

2013-04-23 17:43:58

阅读数:1904

评论数:1

NLP中文信息处理---倒排索引

倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。 倒排索引分析: 以英文为例,下面是要被索引的文本: T0 = &q...

2013-04-12 09:13:46

阅读数:3077

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭