2014年03月_sdfjlkjsdfsaldfsdf

Java中的null引用，超乎你想象

In 2009 Tony Hoare, one of the giants of computer science, wrote: I call it my billion-dollar mistake. It was the invention of the null reference in 1965. At that time, I was designing the first...

2014-03-29 01:37:04 139

模拟浏览器的神器 - HtmlUnit

随着Web的发展，RIA越来越多，JavaScript和Complex AJAX Libraries给网络爬虫带来了极大的挑战，解析页面的时候需要模拟浏览器执行JavaScript才能获得需要的文本内容。好在有一个Java开源项目HtmlUnit，它能模拟Firefox、IE、Chrome等浏览器，不但可以用来测试Web应用，还可以用来解析包含JS的页面以提取信息。下面看看...

2014-03-26 10:55:43 665

中文分词算法之词典机制性能优化与测试

在之前的两篇博文中文分词算法之基于词典的正向最大匹配算法和中文分词算法之基于词典的逆向最大匹配算法中，我们对分词实现和词典实现都做了优化，本文对词典实现做进一步优化，并和之前的多个实现做一个对比，使用的词典下载地址，使用的测试文本下载地址。优化TrieV3的关键在于把虚拟根节点（/）的子节点（词表首字母）提升为多个相互独立的根节点，并对这些根节点建立索引。优化的依据是根节点（...

2014-03-23 08:29:52 269

中文分词算法之基于词典的逆向最大匹配算法

在之前的博文中介绍了基于词典的正向最大匹配算法，用了不到50行代码就实现了，然后分析了词典查找算法的时空复杂性，最后使用前缀树来实现词典查找算法，并做了3次优化。下面我们看看基于词典的逆向最大匹配算法的实现，实验表明，对于汉语来说，逆向最大匹配算法比(正向)最大匹配算法更有效，如下代码所示： public static List<String> segRe...

2014-03-20 02:10:08 644

运行nutch提示：0 records selected for fetching, exiting

运行Nutch的时候提示Generator: 0 records selected for fetching, exiting ...然后程序退出，怎么回事呢？原因多种多样，归根结底就是CrawlDB中的URL经过爬虫抓取调度器（默认是org.apache.nutch.crawl.DefaultFetchSchedule）判断，断定都不应该去抓，所以，Stop The World。...

2014-03-18 20:17:28 231

Apache Nutch v1.8发布，Java实现的网络爬虫

Apache Nutch v1.8已经发布了，建议所有使用1.X系列的用户和开发人员升级到这个版本。这个版本的依赖库Crawler Commons升级到了0.3版本，Apache Tika也升级到了1.4版本，同时还修复了35个BUG，提供了18项改进。详细内容请看更新日志，下载地址，Nutch官网。 Nutch的创始人是Doug Cutting，他同时也是Lucene、Hadoop和...

2014-03-18 10:14:01 160

中文分词算法之基于词典的正向最大匹配算法

基于词典的正向最大匹配算法（最长词优先匹配），算法会根据词典文件自动调整最大长度，分词的好坏完全取决于词典。算法流程图如下： Java实现代码如下： /** * 基于词典的正向最大匹配算法 * @author 杨尚川 */public class WordSeg { private static final List<String&...

2014-03-17 00:59:59 1133

Nutch抓取需要登录的网站

Tomcat自身带的后台管理程序是需要用户登录的，这样的网站如何用Nutch来爬呢？Nutch可以处理Http authentication(BASIC, DIGEST)这种稍显简单的认证，对于普遍流行的用户自定义Form表单以Post或Get方式提交数据认证的情况，Nutch就无能为力了，就更不用说复杂验证码的认证方式了。下面用一个简单的例子说明如何配置Nutch，使其能爬需要Ht...

2014-03-16 20:01:17 317

网络爬虫面临的挑战之链接构造

爬虫与反爬虫就好像是安全领域的破解与反破解一样，相互矛盾，相互克制，同时也相互促进。网站的构建技术从简单的静态网站发展到动态网站，信息的传递从用户单向接收发展到双向交互，内容的产生从站长集中生成发展到全民参与生成。 Web技术的发展对网络爬虫构成了极大的挑战，我们以Nutch为例来说明难在哪里： 1、静态网站（简单）2、动态网站（无陷阱）（难）3、动态网站（有...

2014-03-16 01:39:33 149

配置Nutch模拟浏览器以绕过反爬虫限制

当我们配置Nutch抓取 http://yangshangchuan.iteye.com 的时候，抓取的所有页面内容均为：您的访问请求被拒绝 ...... 这是最简单的反爬虫策略（该策略简单地读取HTTP请求头User-Agent的值来判断是人（浏览器）还是机器爬虫），我们只需要简单地配置Nutch来模拟浏览器（simulate web browser）就可以绕过这种限制。在nutc...

2014-03-14 02:48:53 204

运行nutch报错：unzipBestEffort returned null

报错信息：fetch of http://szs.mof.gov.cn/zhengwuxinxi/zhengcefabu/201402/t20140224_1046354.html failed with: java.io.IOException: unzipBestEffort returned null 完整的报错信息为： 2014-03-12 16:48:38,031 E...

2014-03-12 18:41:21 94

APDPlat中的用户密码安全策略

互联网时代，安全是永恒的主题，威胁无处不在，哪怕是在企业内网。 APDPlat充分考虑到了安全的问题：首先，在浏览器中对用户密码加入复杂字符（{用户信息}）之后进行加密（Secure Hash Algorithm，SHA-512，as defined in FIPS 180-2），在服务器端加入用户名和复杂字符之后再次加密，提高破解复杂度；其次，在浏览器和服务器之间...

2014-03-11 13:09:19 202