xn4545945 http://blog.xigulu.com

专注互联网。业精于勤,荒于嬉;行成于思,毁于随。

排序:
默认
按更新时间
按访问量

搜索引擎----Java实现一个简单的网络爬虫

Java实现一个简单的爬虫程序。考虑了robots协议。 package SearchCrawler; import java.util.*; import java.net.*; import java.io.*; import java.util.regex.*; /* *搜索We...

2013-04-30 23:16:59

阅读数:2725

评论数:0

搜索引擎----网络爬虫

网络爬虫以叫网络蜘蛛(Spider或Crawler),网络机器人,是一个程序,会自动抓取互联网上的网页。这种技术一般可能会检查你的站点上所有的链接。当然,更为高级的技术是把网页中的相关数据分类保存下来,成为搜索引擎的数据源。 基本架构图: 传统爬虫从一个或若干初始网...

2013-04-28 23:18:20

阅读数:1821

评论数:0

NLP中文信息处理---倒排索引

倒排索引(英语:Inverted index),也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。 倒排索引分析: 以英文为例,下面是要被索引的文本: T0 = &q...

2013-04-12 09:13:46

阅读数:3100

评论数:0

Python---语法小结

•Python(英国发音:/ˈpaɪθən/ 美国发音:/ˈpaɪθɑːn/),是一种面向对象、直译式电脑编程语言,具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。它的语法简捷和清晰,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语...

2013-03-27 22:02:31

阅读数:1203

评论数:0

NLP中文信息处理---正向最大匹配法分词

弄了好几天正向最大匹配法分词,终于弄完了吧。Python写的。Python确实是一门好语言,写起来很简单、顺手。 一、关于正向最大匹配法分词 中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础,对于输入的一...

2013-03-26 10:55:08

阅读数:6093

评论数:6

编译原理----Lex词法分析器

一、实验目的 设计并实现一个词法分析器,深刻理解编译原理中词法分析器的原理。   二、实验内容 通过使用自己熟悉的语言设计并实现一个词法分析器,是此法分析器按要求的格式输出经过分析的程序段。 要求分析一下程序片段: const a=10; var b,c; procedure p; begi...

2012-12-08 21:27:51

阅读数:17404

评论数:2

提示
确定要删除当前文章?
取消 删除
关闭
关闭