- 博客(7)
- 资源 (7)
- 收藏
- 关注
原创 文本聚类算法介绍
本博客通过对当前比较成熟的聚类算法分析,介绍如何对非结构的数据(文档)做聚类算法;如何利用搜索引擎的相关知识来解决文本聚类问题等
2015-04-10 12:58:14 22850 13
原创 基于lucene的案例开发:纵横小说阅读页采集
本文介绍了如何通过CrawlBase来实现纵横小说阅读页信息的采集,加上之前的三篇博客就完成了对纵横小说的信息采集,之后会给出具体的main方法,来实现整个流程的运行~
2015-04-08 10:40:58 2947
原创 基于lucene的案例开发:纵横小说章节列表采集
本文介绍了如何通过CrawlBase来实现纵横小说章节列表页信息的采集,同时提供了对于无法右键查看网页源代码网页的信息采集方案
2015-04-03 14:38:49 2881
原创 基于lucene的案例开发:纵横小说更新列表页抓取
本文以纵横中文小说网的更新列表页为例,详细的介绍了如何通过HttpClient去采集更新列表页的内容,介绍如何使用自建类CrawlListPageBase以及如何处理非预期BUG
2015-04-02 14:38:55 3394
提取PDF文件中的文本内容
2015-02-05
基于lucene创建实时索引基础jar包源码
2014-03-06
基于lucene创建实时索引基础jar包
2014-03-06
表情自动生成器java代码实现
2014-01-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人