- 博客(4)
- 资源 (21)
- 收藏
- 关注
原创 搜索引擎----Java实现一个简单的网络爬虫
Java实现一个简单的爬虫程序。考虑了robots协议。 package SearchCrawler; import java.util.*; import java.net.*; import java.io.*; import java.util.regex.*; /* *搜索Web爬行者(起始的URL、处理url的最大数、要搜索的字符串) *命令行输入:如java Search
2013-04-30 23:16:59 3057
原创 搜索引擎----网络爬虫
网络爬虫以叫网络蜘蛛(Spider或Crawler),网络机器人,是一个程序,会自动抓取互联网上的网页。这种技术一般可能会检查你的站点上所有的链接。当然,更为高级的技术是把网页中的相关数据分类保存下来,成为搜索引擎的数据源。 基本架构图: 传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直
2013-04-28 23:18:20 2082
原创 有趣的编程----控制自己电脑的CPU
一、题目:写一个程序,让windows任务管理器中的CPU占用率显示为一条正弦函数曲线。 第一眼看到这个题目,本人确实是没有多大思路的。因为一直没有对性能和CPU占用上考虑太多。真正看书查资料弄完才觉得确实很不错的一个应用题。以下将一步步完成控制的任务。 二、本人运行环境: 操作系统:win 7 32位 CPU: intel i7 2630QM(2.0GHZ 4核8线程)
2013-04-23 17:43:58 2204 1
原创 NLP中文信息处理---倒排索引
倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。 倒排索引分析: 以英文为例,下面是要被索引的文本: T0 = "it is what it is" T1 = "what is it" T2 = "it is
2013-04-12 09:13:46 4735
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人